Z) Springer 


AVS China, H.264/MPEG-4 PART 10, 
HEVC, VP6, DIRAC and VC=1 





oE EEEa 


AVS China, H.264/MPEG-4 PART10、 


ge) PXER HSAN + (KR.Rao) 
~=! #i84 (Do Nyeon Kim) x 
[ 韩 ] 黄 在 静 (Jae Jeong Hwang) 


刘 雪 冬 NSE Mae 等 译 


机 械 王 业 出 版 社 


CHINA MACHINE PRESS 





饮 频 编码 全 角度 详解 : 


AVS China H. 264/MPEG-4 PARTIO. 
HEVC VP6 DIRAC VC-1 


% 卡 米 塞 提 + PUERI - GECK. R. Rao) 
[K] 金 道 年 (Do Nyeon Kim) 著 
[5p] 黄 在 静 (Jae Jeong Hwang) 

MUSA AEE RE 等 详 





C) 


机 械 工 业 出 版 社 





本 书 是 一 本 关于 多 种 视频 编码 方式 标准 的 专著 ,介绍 了 H. 120 H. 261, 
MPEG-1、MPEG-2/H. 262、H. 263 系列 、MPEG-4、VP6、 Dirac、VC-1、H.264/ 
MPEG-4 第 10 部 分 H. 265/HEVC 和 我 国 的 AVS China 等 标准 ,以 及 标准 之 
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详 者 SF 


随 着 多 媒体 时 代 的 到 来 ， 人 们 对 于 视频 的 质量 要 求 越 来 越 高 ， 与 此 同时 ， 也 期 
望 视频 传输 具有 更 快 的 速度 。 而 传输 系统 和 存储 系统 对 于 视频 格式 乃至 码 流 语法 的 
要 求 则 是 尽 可 能 统一 。 这 两 方面 的 客观 要 求 就 是 ， 要 对 视频 数据 进行 压缩 以 及 压缩 
要 实现 标准 化 。 故 而 视频 编码 标准 应 运 而 生 。K. R. Rao, D. N. Kim 和 J. J. Hwang 
合 著 的 本 书 训 括 了 从 人 类 进入 信息 时 代 至 今 的 主要 视频 编码 标准 ， 本 书 涉及 的 内 容 
之 广 ， 是 不 同 寻 常 的。 本 书 最 其 特色 ， 也 是 最 有 价值 的 部 分 是 提供 了 大 量 的 研究 专 
题 ， 尤 其 是 那些 具有 前 瞻 性 的 尝试 和 质疑 。 这些 专题 可 以 作为 硕士 乃至 博士 论文 的 
选 题 ， 也 可 作为 一 篇 期 刊 论文 的 研究 焦点 。 国 内 视频 编码 领域 的 研究 生 毕 业 论文 会 
因为 选 题 重复 或 陈旧 而 遭受 质疑 ,研究 者 们 发 表 论 文 也 会 因为 题目 平凡 而 被 拒 稿 。 
相信 广大 读者 在 充分 吸取 本 书 的 滋养 、 挖 据 所 列 专 题 这 一 “富矿 ”之 后 ， 对 于 研 
究 内 容 的 确定 是 大 有 神 益 的 。 此 外 ， 本 书 还 提供 了 篇 幅 可 观 的 附录 ， 其 中 包含 了 与 
专题 研究 相关 的 实验 数据 结果 ， 这 些 结果 具有 非常 高 的 参考 价值 和 指导 意义 ， 可 以 
作为 广大 读者 自行 研究 的 参考 。 

在 翻译 过 程 中 ， 考 虑 到 翻译 的 目的 是 介绍 编码 技术 的 不 同 标准 ， 而 技术 标准 本 
身 是 客观 存在 的 ， 是 独立 于 表述 语言 和 方式 的 ， 因 此 ， 我 们 对 译文 的 要 求 首 先是 
“客观 ”， 尽 可 能 地 上 患 实 于 技术 本 身 而 不 是 刻板 于 原著 的 表述 。 其 次 的 要 求 是 “地 
道 ”， 即 符合 汉语 的 表达 习惯 ， 阅 读 起 来 感觉 流畅 。 对 于 原著 中 没有 给 出 的 缩 略 
语 ， 译 者 查阅 了 相关 视频 标准 的 文档 进行 了 解释 和 补充 。 对 于 那些 译 者 自己 也 不 其 
满意 的 译 法 ， 注 明了 原著 的 表述 ， 供 广大 读者 其 柄 参考 。 对 于 图 表 等 实验 结果 ， 则 
是 不 折 不 扣 地 “ 患 实 ” 于 原著 。 

本 书 由 刘 雪 冬 负责 第 1 ~5 章 的 翻译 、 全 书 的 统 稿 和 校对 。 中 国 地 质 大 学 (R 
X) 外 国语 学 院 的 刘 雪 莲 老师 负责 第 6 ~8 章 和 附录 A ~ 下 的 翻译 。 武 汉 理工 大 学 
信息 学 院 的 撒 继 铭 老师 负责 附录 下 ~ 于 的 翻译 。 在 本 书 的 翻译 工作 中 ,武汉 理工 大 
学 信息 学 院 的 郭志 强 、 黄 朝 兵 、 江 雪 梅 、 张 小 梅 、 周 颖 、 许 建 起 、 黄 铮 和 朱 健 春 老 
师 以 及 贾 静 静 、 霍 波 、 宋 深 和 张 一 丹 同学 参加 了 部 分 翻译 工作 。 在 此 ， 感 谢 这 些 老 
师 和 同学 们 的 大 力 支持 ! 感谢 机 械 工业 出 版 社 的 相关 工作 人 员 ， 特 别 是 昌 潇 编辑 。 
虽 编 辑 谦虚 体 访 ， 宽 厚礼 让 ， 在 译 者 因 故 致使 翻译 工作 受阻 时 给 予 充分 的 理解 并 给 
予 相 应 的 时 间 调 整 ， 使 译 者 最 终 以 良好 的 状态 如 期 完成 翻译 工作 。 

作为 主要 译 者 的 刘 雪 冬 是 武汉 理工 大 学 信息 学 院 的 副教授 。 有 幸 来 到 美国 得 克 
萨 斯 大 学 阿 灵 顿 分 校 在 本 书 原著 作者 KR. Rao 教授 的 指导 下 开展 访问 学 者 的 研究 
工作 ， 这 也 是 成 为 本 书 译 者 的 机 缘 之 一 。 译 者 初 到 阿 灵 顿时 气温 偏 凉 ，Rao 教授 关 





















































心地 问候 译 者 是 否 需要 他 的 衣服 和 围巾 ， 甚 至 是 否 需 要 午饭 。 在 以 后 的 见面 中 总 会 
提醒 是 否 来 杯 咖啡 ,在 分 别 时 常会 送 一 些小 零食 。Rao 教授 党 打球 游泳 开车 ， 为 学 
生 授 课 并 指导 研究 ， 身 体 很 棒 。 殊 不 知 他 已 85 岁 高 龄 ! 看 来 , “仁者 寿 ” 是 不 分 
种 族 国籍 的 。 为 了 尽 可 能 地 翻译 准确 ， 译 者 曾 就 原著 中 的 一 些 问 题 当 面 请 教 了 他 ， 
这 些 问 题 涉及 缩 略 语 、 算 法 和 硬件 实现 的 技术 细 市 乃至 词语 的 拼写 ， 老 先生 对 于 每 
个 问题 都 能 立刻 做 出 回答 。 目 前 ， 作 为 IEEE 会 士 (Fellow)，Rao 教授 仍然 关注 着 
视频 编码 研究 的 最 前 沿 ， 在 他 指导 译 者 阅读 的 文献 中 ， 视 频 标 准 发 展 的 图 谱 已 经 给 
制 到 了 2017 E, WALES, BAAR; KRAH, EOE, BAA? IA 
Rao 教授 身体 健康 ， 事 业 精 进 ! 

男 一 件 让 译 者 倍 感 欣慰 的 是 本 书 对 于 我 国 具 有 自主 知识 产权 的 音 视频 编码 标准 
AVS- China 进行 了 较为 详细 的 介绍 ， 这 表明 中 国人 制定 的 编码 标准 其 综合 性 能 引起 
了 世界 的 关注 ! RRM WARE ARE! 最 后 ， 要 特别 感谢 武汉 理工 大 学 对 
于 译 者 出 国 研 修 的 资助 ， 没 有 学 校 提 供 的 经 费 ， 译 者 就 无 缘 遇 到 Rao 教授 ， 更 不 会 
有 此 番 学 术 和 翻译 经 历 。 

译 者 在 翻译 的 过 程 中 ， 对 原著 存在 的 一 些 明显 错误 进行 了 修改 。 如 果 书 中 仍然 
FERRARA THR, RSME, BRB AB zxndp@ 126. com, 


























译 者 
美国 得 克 萨 斯 州 阿 灵 顿 市 
2017 年 3 月 
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就 我 们 知识 所 及 ， 本 书 综合 了 所 有 最 近 的 主要 视频 编码 标准 : AVS China, 
H. 264/MPEG-4 Part 10 (今后 称 之 为 H.264/AVC) 、VP6 (目前 VP10)、Dirac、 
VC-1/2 以 及 HEVCZNGVC (HEVC: 高 效 视频 编码 /下 一 代 视 频 编码 ) ， 在 这 个 意 
义 上 说 ， 本 书 是 不 同 寻 常 的。 除了 最 后 的 标准 外 ， 所 有 的 这 些 标准 已 被 工业 界 
(在 不 同 层次 上 ) 采用 ， 为 大 众 市 场 开发 消费 电子 产品 (机顶盒 、 搜 索引 擎 、 笔 记 
本 电脑 、PC、 平 板 电 脑 、 网 络 书籍 、 数 码 相机 、DVD、 蓝 光 光 碟 、 智 能 手机 、 各 
种 手持 移动 设备 、 视 频 点 播 、 视 频 流 等 )。 基 于 HEVC/NGVC 的 产品 也 处 于 不 同 的 
开发 阶段 ， 这 一 点 可 以 从 各 种 论文 中 看 到 (会 议论 文集 、 期 刊 论文 、 专 题 报告 、 
主题 演讲 一 一 见 第 5 章 )。 本 书 的 焦点 在 于 ,导致 各 种 比特 率 下 的 压缩 /编码 、 质 
量 级 别 和 应 用 场合 的 这 些 标准 内 在 的 基本 的 功能 性 、 工 具 、 技 术 和 操作 ， 详 细 的 逐 
步 实 现 过 程 是 有 意 省 略 的 。 然 而 ， 除 了 标准 的 性 能 比较 和 局 限 ， 本 书 还 呈现 了 对 于 
这 些 标 准 的 透彻 理解 。 借 助 于 在 线 资 源 ， 诸 如 web/ftp 地 址 ， 标 准 文档 、 开 源 软 
件 、 述 评论 文 (期 刊 出 版 物 以 及 会 议 陈 述 ) 、 主 题 演讲 、 专 题 报告 、 技 术 反 思 和 相 
关 资 源 ， 读 者 可 以 很 便利 地 在 不 同 档次 (profile) 和 级 别 (level) 上 实现 编码 器 和 
解码 器 以 评价 它们 的 性 能 。 

独 具 慧 眼 又 独 出 心 裁 的 读者 可 以 改善 性 能 ， 降 低 复 杂 度 和 探索 另外 的 应 用 。 除 
了 第 1 章 和 第 2 章 ， 剩 余 的 各 章 均 以 专题 结束 (可 以 调整 修改 做 硕士 论文 ， 某 些 其 
至 可 以 做 博士 论文 )， 这 些 项 目 在 此 抛砖引玉 ， 启 发 思想 。 此 外 ， 本 书展 望 了 从 一 
个 标准 到 另 一 个 标准 的 转 码 (不 是 一 个 标准 的 编 / 解 码 器 连接 另 一 个 标准 的 编 / 解 
码 器 ) 。 通 过 将 一 个 标准 的 部 分 编码 比特 流 有 效 地 /高 效 地 用 于 其 他 标准 内 ， 以 此 
来 显著 降低 转 码 器 的 总 体 复 杂 度 。 这 本 身 就 不 是 件 容易 的 事情 。 然 而 ， 许 多 挑战 已 
被 克服 ， 那 就 是 MPEG-2 到 H.264/AVC 转 码 器 的 实现 ， 反 之 亦 然 ， 以 及 H. 264/ 
AVC 到 VC-1 的 低 复 杂 度 转 码 。 

HEVC/NGVC ( 见 第 5 章 ) 是 最 新 的 标准 ， 间 在 与 H.264/AVC 相 比 ， 在 相同 
视觉 质量 下 降低 大 约 50% 的 比特 率 。2013 年 1 月 ， 它 的 最 终 国际 标准 草案 (FDIS: 
Final Draft International Standard) 已 经 面世 (主要 是 10bit 位 深 和 所 有 的 帧 内 档 
次 )， 工 作 草 案 定 期 更 新 。 这 已 被 ITU 批准 为 ITU-T H.265/ISO/IEC 23008-2 
HEVC。 预 计 基 于 HEVC 的 解码 器 在 2016 年 底 将 达到 20 亿 之 多 。 紧 随 其 后 的 是 计 



































划 在 2014 年 实现 标准 化 的 扩展 部 分 如 可 伸缩 视频 编码 (SVC: Scalabe Video Cod- 
ing) 和 多 视图 编码 (3D 视频 ， 自 由 视点 视频 ， 立 体 视觉 视频 等 )。 除 了 已 有 
标准 如 H. 264/AVC 到 HEVC 的 双向 转 码 器 之 外 ， 这 些 进 展 还 为 其 他 的 研发 工 
作 提 供 了 肥沃 的 土壤 ( 见 最 后 的 项 目 )。 本 书 的 主要 焦点 是 视频 ， 对 音频 只 做 
少量 描述 。 然 而 ， 某 些 论题 /专题 详细 叙述 了 在 保证 视频 和 音频 同步 时 编码 颖 
内 的 编码 过 程 和 视频 /音频 比特 流 的 复 用 过 程 ， 以 及 这 些 比特 流 后 来 的 解 复 用 
和 解码 过 程 。 读 者 可 以 参考 Rao 博士 的 网 址 http://www-ee. uta. edu/dip ( 单 击 

“courses”， 然 后 单 击 “EE5359 multimedia processing”， 向 下 滚动 访问 theses/pro- 
jects/ppslides/papers/proposals 等 )， 即 用 AAC 音频 比特 流 复 用 / 解 复 用 AVS China 
视频 以 实现 音 视 频 同 步 ， 以 及 用 HEVC- AAC 音频 比特 流 复 用 / 解 复 用 H. 264/AVC 
视频 实现 音 视 频 同步 。 

第 得 
的 功能 ， es 
统 DCT/ 整 数 DCT 的 Dirac， 以 及 基于 微软 视窗 媒体 视频 9 (Windows Media Video 
9) 的 VC-1。 除 第 1 章 和 第 2 章 外 ， 所 有 其 他 章 都 增补 有 专题 ， 许 多 专题 具有 硕士 
和 博士 论文 水 平 。 附 录 A ~H ( 源 于 得 克 萨 斯 大 学 阿 灵 顿 分 校 以 前 的 研究 生 ， 附 录 
BACH PROD) 提供 了 额外 的 资源 ， 这 些 资源 也 补充 了 许多 具有 硕 博士 论文 水 平 的 
专题 。 书 目 提要 提供 了 数量 众多 的 出 现在 第 3 章 到 第 8 章 的 有 关 视 频 编 码 标准 的 参 
考 文献 ， 包 括 web/ftp 地 址 、 评 论文 章 、 标 准 文 档 、 主 题 报告 、 专 辑 、 开 源 软 
件 等 。 

希望 本 书 和 所 有 概述 过 的 资源 能 为 读者 理解 和 实现 这 ae 见 
的 读者 可 以 对 这 些 标准 提出 改变 或 增补 、 或 扩展 、 或 修正 以 提高 性 能 、 降 低 复 杂 度 
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Transport Stream ”运输 流 

Transport System Target Decoder 运输 系统 目标 解码 需 
Transform Unit ”变换 单元 

Universal Image Quality Index 通用 图 像 质量 指标 
University of Texas at Arlington ”得 克 陕 斯 大 学 阿 灵 顿 分 校 
Universal Variable Length Coding 通用 变 长 编码 


Variable Bit Rate ”可 变 比 特 率 

Video Coder 1 by SMPTE SMPTE 视频 编码 器 1 号 

Video Coding Experts Group ”视频 编码 专家 组 

Visual Communications and Image Processing ”视觉 通信 与 图 像 处 理 

Visual Communications and Image Representation 视觉 通信 与 图 像 
表示 

Video Coding Layer 视频 编码 层 

Variable Length Coding, variable length codes 

Variable Length Decoder 变 长 解 公 天 


变 长 编码 ， 变 长 码 





VQ 
VQEG FR- TV 


VQM 


WD 
WMA 


WQVGA 
WVGA 


YUV 
ZZ 


Very Large Scale Integration 超大 规模 集成 (电路 ) 

Video on Demand ”视频 点 播 

Vector Quantization ”矢量 量化 

Video Quality Experts Group Full Reference Television 视频 质量 专家 
组 全 参考 电视 

Video Quality Model, Video Quality Metric ”视频 质量 模型 ， 视 频 质量 
测度 

Working Draft 工作 草案 

(Microsoft) Windows media audio (微软 ) Windows 媒体 音频 (1% 
者 注 : 一 种 音频 格式 ) 

Wide Quarter Video Graphics Array ”宽屏 1/4 视频 图 形 阵 列 ( 译 者 
TE; 一 种 显示 屏 分 辩 率 ) 

Wide Video Graphics Array 宽屏 视频 图 形 阵 列 

Luminance and Chrominance Color Components “亮度 和 色 度 颜色 分 量 

Zig-Zag scan Z 形 扫描 


W 
HH 
Dl} 


摘要 : 除 简 述 了 各 种 视频 /图 像 编 码 标准 ， 如 JPEG. MPEG 和 H. 26x 系列 之 
外 ， 还 介绍 了 DIRAC (第 7 章 )，AVS China (第 3 章 ) 和 VC-1 (第 8 章 ) 等 标 
准 。 类 似 地 简 述 了 音频 编码 之 后 ， 以 指标 对 比 总 结 本 章 。 

关键 词 标准 视频 编译 码 ”音频 编译 码 ”颜色 空间 主观 质量 客观 质量 
测度 ”音频 质量 视频 质量 性 能 








1.1 流行 的 视频 和 音频 标准 


多 个 来 源 的 视频 、 音 频 、 图 像 和 文本 的 组 合体 通常 称 为 多 媒体 。 过 去 二 十 年 
里 ， 在 电视 、 娱 乐 、 互 动 业 务 、 电 信 、 会 议 、 互 联网、 消费 电子 设备 、 医 疗 、 安 
全 、 商 业 、 交 通 、 国 防 和 银行 等 广泛 的 领域 里 ， 对 多 媒体 通信 的 要 求 迅速 增长 。 通 
各 ， 因 为 原始 数据 量 太 大 ， 音 频 和 视频 数据 在 存储 或 者 传输 之 前 必须 要 进行 不 缩 。 
而 且 在 显示 或 进一步 处 理 之 前 压缩 数据 应 该 能 被 解码 。 压 缩 也 被 称 为 编码 ， 而 解压 
则 被 称 为 解码 。 因 此 ， 压 缩 和 解压 视频 /音频 数据 的 软件 或 者 硬件 设备 分 别 叫 作 视 
频 / 音 频 编 码 器 和 解码 器 。 方 便 起 见 ， 编 码 器 和 人 解码 器 缩写 为 codec。 尽 管 已 经 开发 
出 了 许多 视频 和 音频 编码 算法 ， 但 实现 多 媒体 通信 的 却 是 视频 和 音频 编码 标准 ， 这 
些 标 准 能 保证 多 个 商家 提供 的 软件 和 硬件 具有 互 操作 性 。 视 频 和 音频 标准 系列 已 经 
由 标准 发 展 组 织 (SDO) 和 著名 公司 开发 出 来 ， 这 些 组 织 包 括 ISO/IEC (国际 标准 
化 组 织 和 国际 电工 委员 会 )[H53] [H54], ITU-T (国际 电信 联盟 的 电信 标准 化 部 
门 ， 以 前 的 CCITT) [ H55], SMPTE (运动 图 像 与 电视 工程 师 协 会 )[ C31]，AVS 
China (中 国 的 音频 与 视频 编码 标准 )[ ASL]. BBC 的 DIRAC [D1] [D5]; REA 
司 包 括 微软 [C32], Real Networks [R3] 和 On2 Technology [P11], 

ISO/IEC 已 经 开发 了 几 个 视频 和 音频 标准 ， 包 括 MPEG-1 (ISO/IEC 11172) 
[S2], MPEG-2 (ISO/IEC 13818)1S3] ， 和 MPEG-4 (ISO/IEC 14496)[S8], ITU-T 
也 已 经 开发 了 若干 标准 ， 但 不 像 MPEG 那样 ， 视 频 标 准 和 音频 标准 是 分 开 的 。 
ITU-T H. 261 [S4], H.262 [S$3]°, H.263 [S5], H. 263 +(H.263 第 2 版 )[S6] 
[S7], H.26L [ PC1] 和 H.264 [S10] [H23] 都 是 为 视频 设计 的 。 而 ITU-T 
G. 723.1 [014] 和 6G.729 [015] 则 是 面 回 音频 的 。 除 此 之 外 ， 还 有 SMPTE 开发 的 




















O H. 262 在 不 少 部 分 中 也 有 音频 编码 。 














2 视频 编码 全 角度 详解 





视频 编码 器 1 号 (VC-1)[C11] [C14] 和 视频 编码 器 2 号 (VC-2)[C6]， 微软 的 
Windows 媒体 视频 9 (Windows Media Video 9), On 2 Technology 公司 的 VP6 [ P3 | 
[P5] [P6] 和 VP7 [P4], BBC 的 Dirac, Real Networks 公司 的 Real Video 9 Fil Re- 
al Video 10 [R1] [R2] 也 都 是 流行 于 互联 网 和 个 人 计算 机 上 的 视频 标准 。 近 年 
Æ, AVS China [A2，A10，A59-A66] 吸引 了 全 世界 与 电视 、 多 媒体 通信 、 甚 至 世 
片 制造 相关 的 行业 的 大 量 关注 。 这 个 新 标准 包括 四 个 主要 的 技术 领域 ， 分 别 是 系统 、 
视频 、 音 频 和 数字 版 权 管理 ， 以 及 一 些 文 持 文档 如 一 致 性 验证 。 该 标准 的 第 二 部 分 被 
称 为 AVS1-P2 [A2] (视频 - 基准) 于 2006 年 获 批 成 为 中 国 国家 标准 。 该 标准 的 几 
个 最 终 草 案 已 经 完成 ， 包 括 AVS1-P1 (系统 )[A1] ，AVS1-P2 (视频 -增强 )[ A3], 
AVS1-P3 (音频 )[ A4] 和 AVS1-P7 (移动 视频 )[A74] 。 

AVS China 提供 了 优化 的 编码 性 能 并 具有 最 低 的 总 体 成 本 ， 包 括 传输 和 存储 成 本 、 
实现 成 本 和 知识 产权 成 本 ， 因 为 AVS China 工作 组 从 建立 标准 之 初 就 考虑 技术 知识 产权 
成 本 的 问题 。 知 识 产权 成 本 有 两 个 方面 。 一 是 内 容 的 知识 产权 ， 这 不 在 音频 和 视频 编码 
标准 之 外 内 。 男 一 方面 是 音频 和 视频 编码 标准 所 用 到 的 技术 的 知识 产权 成 本 。 

有 关 AVS China 最 近 的 一 些 研 究 成 果 报 道 于 “信和 号 处 理 : 图 像 通信 ”期 刊 专辑 
上 的 几 篇 论文 [A58- A66], [A59] 给 出 了 AVS 视频 部 分 的 概述 ， 也 描述 了 可 用 的 编 
码 工具 ， 并 给 出 AVS 定义 的 应 用 驱动 的 档次 的 例子 。[ A60] 介绍 了 AVS 视频 编码 标 
准 的 两 个 基于 上 下 文 的 炉 编码 方案 。 一 个 是 基于 上 下 文 的 2D 变 长 编码 (C2DVLC ) , 
作为 AVS 第 二 部 分 基准 档次 的 低 复 杂 度 炉 编 码 方案 。 男 一 个 是 基于 上 下 文 的 二 进 制 
算术 编码 (CBAC), (EAN AVS 第 二 部 分 增强 档次 的 增强 箭 编码 方案 。[ A61] 提出 了 
一 种 亚 像 素 内 插 滤 波 器 ， 被 称 为 结合 多 癌 滤 波 需 的 目 适 应 -固定 内 插 法 ， 能 以 低 计 算 
复杂 度 来 获得 良好 的 编码 效率 。 此 外 ， 该 专辑 也 讨论 了 算法 实现 [A64] [A65], Al 
重 构 视频 编码 (RVC) 框架 [62] ， 技 巧 模式 [A63] 和 和 鲁 棒 双 水 印 算 法 [A66]. 

这 些 流行 的 视频 标准 列表 见 表 1. 1， 这些 标准 的 算法 元 素 对 比 见 表 1.2。 表 1.1 选 
H T. Ebrahimi 和 M. Kunt 的 论文 “Visual data compression for multimedia applications” , 
Proc. IEEE, * 86 Æ: 1109-1125, 19984F6 H [ G1], 不 过 做 了 些微 小 的 改动 。 最 近 的 
标准 诸如 H. 264/MPEG-4 第 10 部 分 ，Dirac,AVS China, JPEG-LS, JPEG-XR, JBIG, 
VC-1 (SMPTE), VC-2, HEVC/NGVC 和 VP6 (目前 VC10) 也 加 在 本 书 当中 。 




















表 1.1 流行 的 视频 标准 [G1] (IEEE 1998) 


























标准 化 主要 目标 、 、 > 
bs W ik ee 主要 压缩 技术 主要 目标 应 用 
JPEG ISO/IEC | 压缩 比 2 ~30| DCT 互联 网 成 像 
视觉 量化 数字 摄影 
Z 形 重 排序 图 像 与 视频 编辑 
霍 夫 曼 编码 
算术 编码 













































































































































































1% 5I = 3 
( 续 ) 
I 标准 化 主要 目标 , _ 
bs W 团体 比 转 率 主要 压缩 技术 主要 目标 应 用 
JPEG2000 ISO/IEC | 压缩 比 2 ~50| 小 波 EBCOT 互联 网 成 像 
数字 BEA 
图 像 与 视频 编辑 
印刷 
医学 成 像 
移动 应 用 
颜色 传真 
卫星 成 像 
感 兴趣 区 域 编码 ， 图 片 与 艺术 
品 数字 化 文库 ， 按 像素 精度 或 分 
辨 率 的 渐进 传输 ， 激 光 打 印 的 泻 
染 ， 印 前 影像 
JPEG-LS ISO/IEC 第 1 部 分 连续 色调 静止 图 像 的 无 损 与 近 
第 1 部 分 与 上 下 文 建 模 无 损 编 码 
第 2 部 分 顶 测 
Golomb 44 
第 2 部 分 连续 色调 静止 图 像 的 无 损 与 近 
算术 编码 无 损 编码 
更 有 效 的 预测 
改进 的 Golomb #4 
JBIG1, JBIG2) ISO/IEC JBIG1; Æ| JBIGI 传真 机 的 渐进 (有 损 到 无 
JTC/SC | 缩 比 20:1 基于 上 下 文 的 算术 编码 器 | 损 ) 编码 
29/WG1 (动态 适应 于 每 个 像素 
ITU-T 内 容 的 统计 规律 ) 
渐进 / 序 贯 编码 
JBIG2; 压 | JBIG2 公文 存储 与 存档 
缩 比 高 于 有 损 、 无 损 以 及 有 损 万 维 网 图 像 编码 
JBIGI 的 2~ | 到 无 损 的 图 像 压 缩 无 线 数据 传输 
4 fèi 高 质量 渐进 编码 假 脱 机 打印 
内 容 渐进 编码 远程 会 议 
基于 内 容 的 (文本 、 半 色调 、 互动 多 媒体 











线条 稿 、 大 字符 ) 分 解 和 编码 
基于 内 容 的 编码 、 软 模式 匹 
配 、 模 式 匹配 、 和 置换 

二 值 图 像 编码 后 封装 的 文 
件 格式 

数据 (顺序 访问 和 随机 访问 ) 


















































































































































( 续 ) 
2 en 标准 化 主要 目标 : : , _ 
标 W ik 比 转 率 主要 压缩 技术 主要 目标 应 用 
JPEG-XR | ISO/IEC 基于 微软 的 高 清 图 片 〈Win-| 连续 色调 摄影 内 容 的 存储 与 交 
( AIC) dows 媒体 图 片 ) 换 (有 损 和 无 损 ) 
MPEG-1 ISO/IEC 最 高 达 | DCT CD-ROM 存储 
1. 5Mbit/s 视觉 量化 消费 者 视频 
自 适应 量化 数码 相机 
Z 形 重 排 序 
预测 运动 补偿 
双向 运动 补偿 
半 像 素 精 度 运动 估计 
FERS WI 
算术 编码 
MPEG-2 ISO/IEC | 从 1.5Mbit/s| DCT 数字 电视 
直到 视觉 量化 数字 高 清 电视 
大 约 3.5Mbit/s| ” 自 适应 量化 高 质量 视频 
Z 形 重 排序 卫星 电视 
预测 运动 补偿 有 线 电视 
双向 运动 补偿 地 面 广播 
基于 帧 / 场 的 运动 补偿 视频 编辑 
半 像 素 精 度 运动 估计 视频 存储 
空域 可 伸缩 性 数码 相机 
质量 可 伸缩 性 
FERS WI 
算术 编码 
容错 编码 
MPEG-4 4 2| ISO/IEC | 8kbit/s ~ 大 | DCT 互联 网 
部 分 视觉 约 35Mbit/s AY) 小 波 互动 视频 
比特 率 视觉 量化 视觉 编辑 
自 适应 量化 内 容 操作 
Z 形 重 排序 消费 者 视频 
预测 运动 补偿 专业 视频 
双向 运动 补偿 2D/3D 计算 机 图 形 











基于 帧 / 场 的 运动 补偿 
半 像 素 精 度 运动 估计 
高 级 运动 估计 
重合 运动 补偿 








标 


准 


标准 化 
团体 


主要 目标 
比特 率 


主要 压缩 技术 





主要 目标 应 用 





空域 可 扩展 性 
时 域 可 扩展 性 
质量 可 扩展 性 
视图 相关 的 可 扩展 性 
位 图 形状 编码 
Sprite 编码 

人 脸 动画 
动态 网 格 编码 
ERS R 
算术 编码 
容错 编码 










































































H. 261 


ITU-T 


p x 4kbit/s 
(p: 1-31) 


DCT 

自 适应 量化 

Z 形 重 排序 

预测 运动 补偿 

整数 像素 精度 的 运动 估计 
霍 夫 曼 编 码 

容错 编码 


























ISDN 视频 会 议 





H. 262 





ITU-T 





比特 率 从 
1. 5Mbit/s 

直到 的 
35 Mbit/s 





DCT 

视觉 量化 

自 适 应 量化 

Z 形 重 排序 

预测 运动 补偿 

双向 运动 补偿 
基于 帧 / 场 的 运动 补偿 
半 像 素 精度 运动 估计 
空间 可 扩展 性 
质量 可 扩展 性 
霍 夫 曼 编 码 

算术 编码 

容错 编码 






































数字 电视 
数字 高 清 电视 
高 质量 视频 
卫星 电视 
有 线 电 视 
地 面 广播 
视频 编辑 
视频 存储 
数码 相机 















































( 续 ) 
2 cus 标准 化 主要 目标 8 、 _ 
bs W ik 比 转 率 主要 压缩 技术 主要 目标 应 用 
也 238、H28+| ITU-T 比特 率 从 | DCT POTS 可 视 电 话 
All H. 263 ++ 8kbit/s 自 适应 量化 果 面 可 视 电 话 
直到 约 | Z 形 重 排序 移动 可 视 电 话 
1. 5Mbit/s 预测 运动 补偿 视频 会 议 

双向 运动 补偿 
半 像 素 精 度 运 动 估计 
高 级 运动 估计 
HIS AME 
FERS WI 
算术 编码 
容错 编码 

H 264/ MPEG- JVT 比特 率 从 | 整数 DCT 有 线 广播 ， 地面 广播 和 卫星 

4 第 10 部 分 (ISO/IEC | 8kbit/s 直到 广播 
和 JITU-T)| 150Mbit/s 自 适 应 量化 HE, DVD, WOLA 
EBES AT Fea 
Z 形 重 排序 会 话 类 业务 
交替 扫描 排序 视频 点 播 ， 视 频 流 
预测 运动 补偿 ISDN、DSL、 以 太 网 、 局 域 
网 、 无 线 和 移动 网 络 上 的 MMS 

双向 运动 补偿 高 清 电 视 、 超 清 电视 、 数 码 相 











以 小 块 进行 的 可 变 块 大 小 运 
动 补偿 

四 分 之 一 像素 运动 补偿 

图 像 边 界 运动 矢量 

多 参考 图 像 运 动 补偿 

自 适 应 内 部 方向 预测 

算术 编码 (CABAC ) 

变 长 编码 (CAVLC) 

容错 编码 

跳跃 模式 

加 权 预 测 

Z 形 扫 描 、 交 替 扫 描 

可 伸缩 视频 编码 

多 视点 编码 



























































机 、 和 掌上 电脑 、 摄 录像 机 、iPhone、 
iPad 、 无 线 / 手 持 设备 、 电 子 书 阅 
ean, VFO 































































































1% 5I = 7 
( 续 ) 
a ccs 标准 化 主要 目标 , - 
标 W ik 比 转 率 主要 压缩 技术 主要 目标 应 用 
AVS 第 2| AVSI 比特 率 从 | 交错 处 理 : 图 像 级 的 高 清 广 播 
部 分 作 组 IMbit/s 直到 | 自 适 应 帧 / 场 编码 (PAFF) 
20Mbit/s 宏 块 级 的 自 适 应 帧 / 场 编码 高 密度 存储 介质 
( MBAFF) 
内 部 预测 : 亮度 有 5 种 模式 ,| 视频 监控 
色 度 有 4 种 模式 
运动 补偿 : 块 大 小 为 16 x| 视频 点 播 
16/16 x 8/8 x16/8 x8 
运动 矢量 分 辨 率 : 1/4 像 
素 ，4 抽 头 内 插 滤波 器 
变换 ，16bit 8 x 8 REMAX 
变换 
量化 与 缩放 : 仅 在 编码 器 进 
行 缩放 
ARB: 二 维 变 长 编码 与 算 
环 内 去 块 滤波 
运动 矢量 预测 
自 适应 扫描 
AVS 第 7| AVS 工 比特 率 从 | 内 部 预测 亮度 有 9 种 模式 移动 设备 上 进行 记录 和 局 部 
部 分 作 组 IMbit/s 色 度 有 3 种 模式 回放 
直 到 约 | 运动 补偿 : 块 大 小 为 16 x16, | 多 媒体 短信 业务 
20Mbit/s 16x8, 8x16, 8x8, 8x4, 
4x8 
运动 矢量 分 辨 率 : 1/4 像素 流 媒体 和 广播 
变换 : 16bit 的 4x4 实时 的 视频 通话 








整数 余弦 变换 

量化 与 缩放 : 仪 在 编码 需 
进行 缩放 

i aS: 基于 上 下 文 的 自 
适应 

二 维 变 长 编码 



































































































































( 续 ) 
2 cus 标准 化 主要 目标 8 、 _ 
标 W 团体 比 转 率 主要 压缩 技术 主要 目标 应 用 
Dirac 英国 广 比特 率 从 几 4 x4 小 波 变 换 广播 
播 公 司 研 | A kbit/s 直到 | 死 区 量化 与 缩放 实况 流 视频 
发 约 15Mbit/s MIm: 算术 编码 播客 
Mozilla 分 级 运动 估计 对 等 传输 
公共 许可 帧 内 帧 间 预 测 具备 标清 同步 广播 能 力 的 高 
证 (MPL) 清 电 视 
单个 及 多 参考 帧 的 P，B 帧 桌面 产品 
1/8 像素 精度 的 运动 矢量 新 闻 链 接 
基于 4 x4 正 交 块 运动 补偿 档案 存储 
Daubenchies 小 波 滤波 器 个 人 视频 记录 仪 
多 级 夹层 编码 
DiracPRO 英国 广 比特 率 动 | 4x4 小 波 变换 专业 (高 质量 低 时 延 ) 应 用 
(SMPTEVC-2) | 播 公 司 研 | 无 损 高 清 到 < | 死 区 量化 与 缩放 (不 分 配给 终端 用 户 ) 
发 SMPTE | 50Mbit/s 炉 编 码 : 基于 上 下 文 的 自 适 | 面向 存档 的 无 损 或 视觉 无 损 
压缩 比 20:1| 应 二 进 制 算术 编码 ， 指数 | 的 压缩 
Golomb 编码 
WA 〈 也 有 前 向 、 后 向 的 预 | 用 于 现存 设备 再 利用 的 夹层 
测 模式 ) 压缩 
帧 、 场 编码 (交错 和 渐进 ) 用 于 实况 视频 链接 的 低 时 延 
Daubechies 小 波 滤波 器 压缩 
MPEG-7 (多 | ISO/IEC 各 类 多 媒体 信息 如 静止 图 像 、 
媒体 内 容 描 述 图 形 、 文 本 、 视 频 、 音 频 等 ， 
接口 ) 以 及 用 于 呈现 多 媒体 的 组 合 信 














息 。 帮 助 多 媒体 搜索 引擎 进行 
浏览 、 搜 索 和 检索 。 视 觉 检索 
系统 (例如 ,视频 数据 库 、 远 
程 购 物 、 医 疗 和 遥感 应 用 ) 、 听 
觉 检索 系统 (例如 ， 卡拉 OK 
和 音乐 销售 以 及 历史 语音 数据 
库 ) 。 超 越 检 索 的 应 用 (例如 ， 
代理 驱动 的 媒体 选择 和 过 滤 ， 
以 及 智能 多 媒体 呈现 ) ， 还 有 其 
他 的 应 用 如 教育 或 监控 。 跨 模 
态 检 索 系统 。 












































Sele 5I Ss 9 
( 续 ) 
标准 化 主要 目标 
示 fi EJZ X 主 示 应 
标 E 团体 比 转 率 要 压缩 技术 要 目标 应 用 
MRC (混合 | ITU-T 最 高 达 | 多 层 和 多 分 辨 率 表示 互联 网 彩色 传真 、 公 用 电话 
光栅 内 容 ) 33. 6kbit/s 每 层 都 进行 压缩 算法 的 设计 | 网 彩色 传真 、 数 码 纸 高 质量 文 
和 优化 档 图 像 压缩 
VC-1 (WM SMPTE 10kbit/s ~ 整数 DCT 互联 网 上 的 媒体 传输 
V-9) 421M 8Mbit/s 自 适应 块 大 小 变换 [ (8 x 广播 电视 
8), (8x4), (4x8) 和 (4x 高 清 DVD 
4)] 
对 (16x16) Fl (8x8) 的 | 剧院 的 数字 投影 、 移 动 电话 
块 进 行 运 动 估计 
1/2 和 1/4 像素 的 运动 矢量 DVB-T (地 面 传输 数字 视频 
分 辩 率 广播 ) 
死 区 和 均匀 量化 DVB-S (卫星 传输 数字 视频 
广播 ) 
多 种 变 长 编码 
环 内 去 块 滤波 、 误 落 补 偿 
HEVC/NGVC| JVT (IS 除 H. 264/MPEG4 第 10 部 分 HEVC (高 效 视 频 编 码 ) 
O/IEC 和 所 列 出 的 那些 技术 外 ， 还 有 : 与 H. 264/MPEG-4 第 10 部 
ITU-T) 率 失 真 图 像 判 定 分 相同 ， 但 比特 率 更 低压 缩 效 











RDO-Q (利用 RDO 的 量化 ) 

新 偏 移 

自 适 应 内 插 滤波 吕 

ROA iG De HH BB YE We at 
(BALF) 

更 大 的 块 以 及 相应 的 变换 
(32 x32 和 64 x64) 

多 角度 帧 内 自 适 应 方向 预 
测 : 最 多 有 33 个 角度 的 
方向 

帧 间 预 测 (多 参考 图 像 、 双 
向 预测 、 加 权 预 测 ) 

新 的 运动 矢量 竞争 变换 单元 
块 大 小 (4 x4 和 32 x32) 








超 清 电视 
H. 264/MPEG-4 第 10 部 分 
在 较 低 比特 率 下 的 所 有 应 用 









































































































































10 视频 编码 全 角度 详解 
( 续 ) 
2 ws 标准 化 主要 目标 : : , _ 
标 W ik 比 转 率 主要 压缩 技术 主要 目标 应 用 
VP6 Adobe fl- I, Phi Flash 视频 
ash (On 2 8 x8 整数 DCT 
技术 ) 16 x16 和 8 x8 的 运动 估计 
1/4 像素 的 运动 矢量 分 辩 
率 ， 去 块 滤波 器 ， 参 考 帧 的 
最 大 #: 2 
黄金 帧 
预测 环 路 滤波 器 
变 长 编码 : ER SM 
制 算术 (ABAR) 编码 
表 1.2 不 同 视频 压缩 标准 的 算法 元 素 比 较 
SMPTE 
Bi |MPEG-2 视频 | MPEG-4 AVC VC-1 AVS China AVS China 
E Dirac DiracPRO 
元 素 (H. 262) (H. 264) (Windows 媒 第 2 部 分 第 7 部 分 
体 视 频 9 ) 
RA: 宏 贞 内 4 x4 
wi 内 | 块 编码 的 直 | SAX 空间 的 | TM) BT 8 a 
空间 的 16 x 16 频 域 系数 4x4 (前 18 块 的 帧 内 
预测 流 系 数 预 i 4x4 向 ， 后 向 | 预测 直接 帧 内 
WU at I 预测 
iit 
i 场 
bi 场 图 像 级 自 bi T- thot, 
图 像 编 5 图 像 级 自 适应 帧 | 适应 帧 场 场 ( 交 bi bi 
码 类 型 场 编码 编码 蔡 的 、 浙 
宏 块 级 自 适应 帧 | ARR A 进 的 ) 
场 编码 适应 帧 场 
编码 
运动 补 16 x 16, 16x16, 16x8, EI, 16 x 16, 16 x16, 16 x 
他 块 大 小 I By IG, BW | 4x4 不 适用 |16 x8, 8x | 8, 8 x 16, 8 x 
16 4, 4x8, 4x4, 16, 8x8, | 8, 8x4, 4x8 
运动 天 | 全 像素 全 像素 全 像素 
= p 半 像 素 ERR 1/8 像素 不 适用 | 1/4 像素 1/4 像素 
量 精 度 半 像 素 
1/4 像素 1/4 像素 



































































































































1% 5I = 77 
( 续 ) 
SMPTE 
算法 ”IMPEG-2 视频 | MPEG-4 AVC VC-1 AVS China AVS China 
Dirac DiracPRO 
元 素 (H. 262 ) (H. 264 ) ( Windows 媒 第 2 部 分 第 7 部 分 
体 视 频 9 ) 
单 参考 | 单 参考 单 参 考 帧 ， 
P 帧 类 单 参考 帧 ， 多 参 本 没有 | 帧 ， 多 参考 i 
单 帧 帧 ， 亮 度 | 帧 ， 多 参 多 参考 帧 (最 
型 考 帧 ve bh P 帧 W (最 多 2 eer 
. . 个 参考 帧 ) iin 
每 个 方向 
每 个 方向 一 个 参 每 个 广 Eee 
B 帧 类 | ”每 个 方向 | 考 帧 ， 多 参考 帧 ,| 每 个 方向 | 向 一 个 参 | 3 P 
iby 每 个 方向 = ae 每 个 方向 | 向 一 了 没有 wi cae] BEBM 
型 一 个 参考 帧 | 直接 及 空间 直接 加 | 一 个 参考 帧 | 考 帧 ， 多 |B 帧 , 
权 预 测 参考 帧 We 
= a 对 称 模式 
没 块 效应 没 没 FRYE UE AS 
ER 有 去 块 效应 重 亚 杰 次 有 有 ER 去 块 滤波 
基于 上 
指数 Golomb 编 “PCH 
码 自 适 应 变 | ”算术 编 vee 二 维 变 长 ‘ee 
MAB) 变 长 码 ' | 
CAVLC, CABAC | 长 码 码 制 算 术 编 | 编码 
变 长 编码 
但 ,Colomb 
编码 
4x4 
数 DCT 
i 8x8 Bl) 4x4 4x4 F 
4x4 8% DCT | 8x8 | 4x4 整数 
变换 8 x8 DCT . 数 DCT 波 变换 小 波 变换 | 
8 x8 整数 DCT # DCT DCT 
8 x4 和 
4x8 RM 
DCT 
量化 缩放 量化 缩 | 量化 缩 | 量化 缩放 量化 缩放 
其 他 HE FA BREE: 输入 流 后 
矩阵 人 | 放 和 矩阵 | 放 和 矩阵 “| 矩阵 矩阵 











处 理 控制 

















1.2 视频 的 数字 表示 


视频 用 来 或 记录 、 或 显示 、 或 同时 记录 显示 运动 对 象 ， 它 由 一 系列 在 固定 时 间 
间隔 拍摄 的 图 片 组 成 。 每 秒 钟 的 帧 CAA) 数 叫 作 帧 率 。 低 于 10 帧 每 秒 (fs) 的 
帧 率 有 时 候 用 于 甚 低 比特 率 〈 低 于 64bit/s) 视频 通信 。 对 于 低 比 特 率 视 频 通 信 ， 
在 10 ~20 之 间 的 fxs 较为 常见 。 采 样 25f/s 或 30f/s 是 电视 图 像 的 标准 ， 而 50f/s 或 
60f/s 则 能 产生 相当 平 请 的 运动 [B8]. 

视频 可 被 分 为 模拟 和 数字 类 型 。 模 拟 视频 用 模拟 信号 来 表示 ， 由 模拟 摄像 机 进 
行 逐 行 扫描 或 隔行 扫描 来 捕获 。 模 拟 视频 的 例子 之 一 就 是 在 模拟 电视 制式 如 PAL 
[G12] 和 NTSC [G13] [G14] 中 所 用 的 信号 。 数 字 视 频 常 常用 数字 摄像 机 来 捕 
获 ， 虽 然 它 也 能 由 模拟 视频 信号 转换 得 到 。 上 自然 场景 投影 到 数字 摄像 机 的 传 感 希 上 
如 电荷 耦合 需 件 (CCD) 阵列 ， 这 种 传 感 需 把 场景 的 亮度 或 者 颜色 转换 成 数字 数 
据 。 视 频 序 列 的 每 幅 图 像 (图 片 ) 包括 MxN 个 像素 (pixel), EP M 是 行 数 ， 
N 是 列 数 。 对 于 彩色 图 像 ， 每 个 像素 通常 包括 3 个 颜色 分 量 : 红 (R), BR (G) 
和 蓝 (B) (缩写 为 RGB ) 。 每 个 颜色 分 量 被 单独 过 滤 并 投影 到 CCD 阵列 上 。 任 意 
颜色 都 可 用 不 同比 例 的 R、G 和 B 组 合 而 成 。 对 于 R、G 和 B 所 有 可 能 的 取 值 ， 矢 
He (R, G, B) 构成 了 一 个 空间 ， 叫 作 RGB 颜色 空间 。 每 个 颜色 分 量 用 Kbit 的 整 
数 来 表示 。 对 一 般 应 用 而 言 ,，K 值 取 8 就 足够 了 。 但是， 对 于 较为 精确 的 应 用 诸如 
医学 、 广 播 、 监 控 和 工作 室 编 辑 等 ， 就 需要 更 大 的 天 值 。 

尽管 RGB 颜色 空间 很 适合 于 捕获 与 显示 彩色 图 像 ， 但 由 矢量 (Y, Cb, Cr) 
形成 的 YCbCr 空间 对 于 压缩 更 有 效 ， 其 中 ，Y 表示 像素 的 亮度 ，Cb 和 Cr 是 像素 分 
别 正比 于 色差 B-Y 和 R-Y 的 颜色 分 量 。 如 果 像 [B8] 所 定义 的 那样 ，Cb = 0. 546 
(B-Y), Cr=0.713 (R-Y), ABAM RGB 空间 到 YCbCr 空间 的 映射 及 其 逆 映 射 可 
以 按 如 下 公式 来 实现 . 



































Cb = -0.169R -0.331G +0. 500B (1.1) 
Cr =0. 500R -0.419G -0. 081B 
bos 


| =0. 299R +0. 587G +0. 114B 


G = Y -0. 344Cb -0.714Cr (1.2) 
B =Y +1.772Cb 
另 一 方面 ， 如 果 像 [G6] i$, Ch=aB-Y HCr=R-Y, È (1.1) ME 
(1.2) Æ 


Cb = -0. 299R -0. 587G +0. 886B (1.3) 


| =0. 299R +0.587G +0. 114B 
Cr =0. 701R -0. 587G - 0. 114B 


W 
J 
SA 
on) 
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R=Y+Cr 
G = Y -0. 194Cb - 0. 509Cr (1.4) 
B=Y+Cb 
人 类 视觉 系统 (AVS) 对 亮度 误差 比 对 色 度 误差 更 为 敏感 。 该 特性 可 被 用 来 
对 视频 数据 进行 更 多 的 压缩 。 因 此 ，Cb 和 Cr 分 量 可 以 用 低 于 立 分 量 的 分 辩 率 来 表 
示 。 例 如 ，Cb 和 Cr 可 以 下 采样 为 了 的 1/4 大 小 。 这 就 降低 了 用 来 表示 色 度 分 量 的 
数据 量 ， 同 时 对 视觉 质量 没有 明显 的 影响 。 对 于 一 个 随意 观察 图 像 的 人 来 说 ， 一 幅 
RGB 图 像 和 一 幅 色 度 分 辨 率 降低 了 的 YCbCr 图 像 之 间 是 没有 明显 区 别 的 。 在 存储 
或 编码 之 前 RGB 图 像 要 转换 为 YCbCr KUR, mi YCbCr 图 像 在 显示 之 前 通常 有 必要 
转换 回 RGB, 一 个 视频 标准 通常 支持 多 种 Y、Cb 和 Cr 的 采样 模式 。— 典 型 的 采样 模 
式 是 4:4:4,，4:2:2， 和 4:2:0， 如 图 1.1 所 示 。 











S2a2aesaas : @ @ xi@ XIR XIR x x XIX XIX XIX x 
~~ -----4-------4-------- L------- O 1 O IO 10 

2288 828 8 ® @ xX'@ XIB XIB x x XIX XIX x!x x 

N: A: A: A: A: A: A, S XIA XIB XIR x x XIX XIX XIX x 
Ss 1------- 十 ------ 十 ------- O 'O IO FO 

22888288 ®@ S XIB XIB XIB x X XIX XIX KIX X 
s SS SUT TS E ARAR 人 

2S 8B BReaW® Z XIS x!'@ x!@ x x XIX XIX XIX x 
S a eee O 1O IO bo 

2 8 &§ & F&F B WB ® @ x | & xi @ x | 8 x x x | Xx x ! x X | x xX 


a) b) c) 
Al 1.1 典型 的 采样 模式 
a) 4:4:4 RFE b) 4:2:2 采样 c) 4:2:0 采 样 
(又 号 表示 亮度 样本 ， 空 圈 表 示 色 度 样本 ) 








比例 N1: N2: N3 里 面 的 数字 指 水 平方 向 上 的 相对 采样 率 ，N1 表示 在 奇数 行 和 
侦 数 行 里 Y 样本 的 个 数 ，N2 表示 奇数 行 里 Cb 和 Cr 样本 的 个 数 ，N3 是 偶数 行 里 
Cb 和 Cr 样本 的 个 数 。 例 如 ， 在 4:2:0 的 采样 模式 中 ，N1 =4，N2 =2，N3 =0。 这 
意味 着 对 于 奇数 行 里 的 每 4 个 亮度 样本 ， 有 2 个 Cb 样本 和 2 个 Cr 样本 ; 但 对 于 偶 
数 行 里 的 每 4 个 亮度 样本 ， 没 有 Cb 和 Cr 样本 。 在 4:2:2 的 采样 模式 中 ， 不 仅 对 于 
奇数 行 里 的 每 4 个 亮度 样本 有 2 个 Cb 和 Cr 样本 ， 而 且 对 于 偶数 行 里 的 每 4 个 亮度 
样本 也 有 2 个 Cb 和 Cr 样本 。 

在 以 上 的 模式 中 ，4: 2: 0 的 采样 模式 是 最 流行 的 ， 它 广泛 用 于 消费 应 用 领域 如 
视频 会 议 、 数 字 电 视 和 数字 通用 光盘 (DVD) 存储 中 。 而 4:2:2 和 4:4:4 模式 则 用 
于 高 质量 颜色 再 现 。 从 图 1.1 和 图 1. 2 可 以 清楚 地 看 出 ，4: 2: 0 模式 的 样本 数 仅 仅 
是 4:4:4 模式 的 样本 数 的 一 半 。 

在 视频 编码 需 中 ， 每 帧 图 像 被 分 为 固定 大 小 的 宏 块 (MB ) ， 一 个 宏 块 包括 一 
个 由 亮度 分 量 16 x 16 的 样本 和 每 个 色 度 分 量 8 x8 的 样本 构成 的 矩形 区 域 (4: 2:0 
格式 )。 图 1.2 示 出 3 个 视频 格式 4:4:4、4:2:2 和 4:2:0。4:4:4 是 全 带宽 视频 ， 
每 个 宏 块 包括 4 个 Y 块 和 4 个 UAV 块 。 因 全 带宽 之 故 ， 这 种 格式 包括 就 像 在 RGB 
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TTI] 
EERE 
图 1.2 不 同 的 YUV 格式 . 只 示 出 了 图 像 的 一 个 宏 块 








颜色 空间 中 一 样 多 的 数据 量 。4:2:2 包括 4:4:4 一 半 的 色 度 信息 ，4: 2:0 包括 四 分 
之 一 的 色 度 信息 。4: 2:0 格式 一 般 用 在 视频 流 领域 。 

从 以 上 讨论 可 以 总 结 出 : (1) 数字 视频 由 一 系列 图 像 组 成 ， 每 幅 图 像 包 括 
Mx NN 个 像素 ; (2) 每 个 像素 的 颜色 由 或 者 是 RGB 颜色 空间 或 者 是 YCbCr 空间 中 
三 个 分 量 确定 ; (3) RGB 颜色 空间 更 适合 于 网 像 采集 和 显示 ， 而 YCbCr 空间 用 于 
编码 和 存储 则 比较 好 。 


1.3 ”视频 编 解码 的 基本 结构 


尽管 不 同 的 视频 标准 之 间 存 在 着 不 同 的 差别 ， 但 是 许多 标准 都 使 用 了 共同 
的 工具 ， 诸 如 ， 基 于 运动 降低 时 间 宛 余 ， 基 于 变换 降低 空间 宛 余 。 这 些 工 具 形 
成 的 视频 编码 器 可 以 分 成 两 类 。 一 类 包括 自 适应 帧 内 预测 [ H32 ] ， 但 另 一 类 
没有 这 种 模式 。 两 类 基本 视频 编 解码 结构 如 图 1.3 和 图 1.4 所 示 。 尽 管 存 在 细 
小 的 差别 ,但 许多 视频 标准 包括 H. 261 、H. 263, MPEG-1 和 MPEG-2 都 具有 类 似 
的 编码 器 结构 (ILR 1.3)。 具 有 类 似 于 图 1.4 [H8] 所 示 编 解码 结构 的 标准 通常 
是 新 的 视频 标准 ， 诸 如 H. 264, AVS China 和 VC-1 [C10] [C14]。 从 这 儿 幅 图 可 
以 容易 看 出 ， 变 换 工 具 、 帧 间 预 测 、 帧 内 预测 和 炉 编 码 在 视频 编 解码 中 发 挥 着 非常 
重要 的 作用 。 
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1.4 视频 编译 码 性 能 比较 的 衡量 标准 


评价 不 同 的 视频 编译 码 性 能 需要 通过 比较 几 个 方面 来 进行 。 这 些 指 标 包 括 比 特 
率 (或 压缩 比 )、 计 算 成 本 (或 复杂 度 )、 质 量 (或 失真 )、 可 伸缩 性 、 对 错误 的 
稳健 性 、 和 互 操 作 性 。 压 缩 比特 率 是 传输 一 个 编码 的 视频 序列 需要 的 率 。 比 特 率 的 
单位 是 每 秒 的 比特 数 ， 简 写 为 bit/s (或 bps)。 对 一 个 压缩 视频 流 计算 或 测量 比特 
率 是 很 容易 的 。 计 算 成 本 指 的 是 编码 视频 序列 所 需要 的 处 理 能 

质量 意味 着 或 者 主观 或 者 客观 的 被 测量 的 视频 质量 。 平 均 意 见得 分 (MOS) 
是 衡量 主观 质量 的 标准 之 一 。 在 主观 试验 中 , 一群 人 (通常 是 15 ~30 个 ) 被 要 求 
观察 一 组 视频 藤 辑 并 对 它们 的 质量 确定 等 级 。MOS 表示 对 于 一 个 给 定 的 视频 片段 
对 所 有 观察 者 给 出 等 级 的 平均 。 有 各 种 各 样 的 主观 测试 方法 。ITU 在 各 种 建议 
[U1]-[U3] 中 都 已 正式 确定 了 直接 评级 的 方法 。 建 议 的 测试 过 程 包括 隐 式 比较 法 
诸如 双 激 励 连 续 质 量 评级 法 ( DSCQS)、 显 式 比 较 法 诸如 双 激 励 损 伤 评级 法 
(DSIS) ,或 者 绝对 评级 法 诸如 单 激励 连续 质量 评价 法 (SSCQE) 或 者 绝对 分 类 评 
级 法 (ACR) 。 有 关 主 观测 试 的 更 多 细节 可 以 在 [B11] 中 找到 。 视 频 质量 最 好 是 
进行 主观 评价 ， 也 就 是 说 由 真实 的 观察 者 来 进行 评价 。 然 而 ， 主 观 质量 的 评价 是 很 
耗 时 而 且 昂 贯 的 ， 这 是 由 于 需要 大 量 的 观察 者 和 大 量 要 被 评级 的 视频 材料 ; 而且， 
对 于 实时 系统 主观 评价 不 容易 也 不 能 例 行 实现 。 

图 像 或 视频 质量 的 客观 评价 的 目的 是 ， 保 持 与 人 类 质量 判断 一 致 的 前 提 下 目 动 
评价 图 像 或 视频 序列 的 质量 。 

客观 度量 标准 可 以 按照 不 同 的 方式 进行 分 类 。 例 如 ，Winkler 和 Mohandas 
[Q21] 一 方面 把 客观 度量 标准 分 成 数据 度量 标准 、 图 像 度 量 标准 和 基于 包 和 比特 
流 的 度量 标准 ， 但 另 一 方面 按照 所 需要 的 参考 视频 信息 量 又 分 成 全 参考 度量 标准 、 
无 参考 度量 标准 和 缩减 参考 算 阵 。 数 据 度 量 标准 仅仅 基于 和 逐 字 蔬 的 数据 比较 而 不 考 
虚像 素 的 空间 关系 。 

数据 度量 标准 的 例子 是 均 方 误差 ( MSE) 和 峰值 信 品 比 (PSNR) 。 网 像 测度 
专门 解释 了 失真 和 内 容 对 于 所 感知 质量 的 影响 。 基 于 包 和 比特 流 的 度量 标准 被 设计 
来 测量 网 络 损失 对 视频 质量 的 影响 ， 该 测量 基于 可 从 无 解码 或 很 少 解 码 的 传输 流 和 
比特 流 中 提取 的 参数 展开 。 

全 参考 方法 需要 对 于 原始 源 序列 和 相应 的 处 理 序列 进行 完全 的 访问 。 对 于 有 足 
够 时 间 测 量 质 量 而 且 具 有 源 视频 的 场合 ， 这 类 方法 很 适合 于 性 能 测试 。 缩 减 参 考 方 
法 通过 从 原始 参考 序列 中 提取 一 个 参数 集 并 用 这 个 集合 代替 实际 的 参考 视频 。 我 们 
也 需要 以 缩减 参考 方法 传输 要 用 的 参考 参数 的 一 些 途 径 。 无 参考 方法 只 工作 在 处 理 
过 的 视频 序列 上 ， 对 源 信 息 不 进行 访问 。 缩 减 参考 和 无 参考 方法 适合 于 实况 监视 应 
用 [Q21] [U10], 
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在 过 去 的 几 十 年 ， 图 像 和 视频 质量 评价 受到 广泛 研究 ， 制 订 了 许多 不 同 的 主观 
标准 [TU6]-[U8]。 但 是 峰值 信 噪 比 (PSNR) 仍然 是 最 为 流行 使 用 的 质量 度量 标 
准 ， 特 别 是 在 率 失 真性 能 的 分 析 中 。 为 了 搞 清楚 PSNR 在 图 像 / 视 频 质 量 评价 中 的 
ARGE], Huynh- Thu 和 Ghanbari [Q18] 选用 了 十 段 时 长 8s 的 CIF 分 辨 率 的 源 
(参考 ) 视频 内 容 (分 别 取 名 为 SRC1 到 SRC10)， 这 些 视频 内 容 涵盖 了 很 宽 范围 
的 时 空 特性 并 且 在 24 ~ 800kbit/s 的 不 同比 特 率 上 用 H. 264 对 其 进行 编码 。 他 们 还 
用 40 个 测试 序列 和 一 个 遵照 国际 标准 的 实验 设置 进行 了 主观 测试 [U2], ARR 
明 ， 对 于 特定 的 内 容 ， 随 着 比特 率 的 增加 ，PSNR 总 是 随 着 主观 质量 单调 增加 ， 如 
图 1. 5a 所 示 。 换 句 话 说， 对 于 一 个 特定 的 编译 码 系统 和 固定 的 视频 内 容 ，PSNR 的 
变化 就 是 质量 变化 的 指示 器 。 因 此 ， 在 编译 码 的 环境 中 ，PSNR 可 被 用 作 一 个 性 能 
测量 标准 。 另 一 方面 ,图 1. Sb 和 < 显示， 在 跨越 不 同 视频 内 容 评价 视频 质量 时 ， 
PSNR 可 能 不 是 一 个 可 靠 的 方法 。 
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图 1.5 PSNR 和 主观 质量 的 对 比 


均 方 误差 ( MSE)， 方 均 根 误差 (RMSE)， 标 准 化 的 均 方 误差 (NMSE), fale 
IE (SNR), ， 和 峰值 信 噪 比 (PSNR) 定义 如 [Q4] 








N-1 M-1 
> >, (xy 加 y 
_ i=0 j=0 
MSE = NM (1.5) 
N-1 M-1 
» (x, -y,)° 
i=0 j=0 
NMSE = 45 (1.7) 
(x, )° 
i=0 j=0 
SNR(dB) = - 10log,,( NMSE) (1.8) 
PSNR(dB) = 10log p 
"| MSE 
(1.9) 
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式 中 ,WN 是 行 数 ，M 是 列 数 ，x, 是 位 于 第 i 行 第 j 列 的 原始 像素 值 ，y, 是 位 于 第 i 行 
第 j 列 处 理 (如 解码 ) 过 的 像素 值 。 这 里 的 255 是 8bit PCM 的 峰 - 峰 信号 值 。 

为 了 改善 测量 标准 的 测量 性 能 ，Feghali 等 人 [Q17] 提出 了 一 种 叫 作 QM 的 有 
效 的 质量 度量 标准 。QM 考虑 了 量化 误差 、 帧 率 (FR) 、 和 运动 速度 。 这 个 度量 标 
准 QM 定义 为 











QM = PSNR +a xm’ x (30 - FR) (1. 10) 
式 中 ，PSNR 是 视频 序列 的 峰值 信 品 比 ; a =0.986, b =0.378 是 常数 ，FR (<30) 
表示 视频 的 帧 率 ; m 是 运动 速度 参数 ， 其 实 就 是 大 的 运动 矢量 的 平均 幅度 归 一 化 。 
产生 的 QM 与 评 得 的 主观 质量 的 相关 系数 (IR 1.3) 在 五 个 视频 序列 (Football, 
Ferriswheel, Mobile, Susie, and Autumnleaves) 上 平均 高 达 0.93。 这 要 比 只 用 
PSNR 好 很 多 。 按 照 式 (1.10)， 当 FR =30，QM =PSNR。 这 意味 着 在 帧 率 为 30f/s 
时 ，PSNR 很 好 地 预测 了 主观 质量 ， 如 图 1.6 和 图 1.7 所 示 。 
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图 1.6 PSNR 与 主观 评价 质量 (解码 序列 和 源 序列 的 差别 )[ Q17] (2007 IEEE) 
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图 1.7 QM 与 主观 评价 质量 (解码 序列 和 源 序 列 的 差别 ) 


R13 QM 与 主观 评价 质量 的 相关 系数 [Q17] (2007 IEEE) 
视频 序列 QM 相关 系数 





Football 0.95 0. 57 
Ferriswheel 0. 92 0. 63 
Mobile 0. 89 0. 68 
Susie 0. 96 0. 68 


Autumnleaves 0. 96 0. 96 











与 基于 PSNR 的 度量 标准 不 同 ，Liu 等 人 [024] 提出 了 全 参考 度量 标准 ， 
该 标准 度量 由 于 包 损 失 和 有 损 压 缩 产 生 的 整体 质量 退化 。 这 个 质量 标准 叫 作 
“编码 瑕 普 和 包 损 失 引 起 的 差分 平均 意见 分 的 质量 退化 预测 ” (PDMOSCL ， 
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Predicted Degradation of Differential Mean Opinion Score due to Coding-artifacts and 
Packetlosses) ， 定 义 为 





PDMOSCL = PDMOS, + APDMOS, (1.11) 
A 
1 AL EL 
PDMOS, = Fe “(1 - e") x > (e 5 aen) | (1. 12) 
DMOS¢ max 

PDMOS. = Ta o SR- PSN (1.13) 

0, PD < PD ain 
a( PD) = PD ~ PD nin ’ PD avin 三 PD < PD nax ( l. 14) 

PD nax ~ PD nin ? PD > PD nax 


式 中 ，PDMOSCL 是 预测 的 总 质量 退化 ; PDMOS, 是 预测 的 已 编码 序列 无 损 部 分 
的 编码 环 症 产生 的 质量 退化 ; PDMOS, 是 预测 的 包 损失 引起 质量 退化 ; 参数 不 用 
来 在 编码 瑕 辛 引 起 的 质量 退化 和 包 损 失 引 起 的 质量 退化 之 间 提 供 合 适 的 权重 ， 
PD, 是 第 7 Wi PSNR 的 下 降 值 ,j=1 表示 第 一 个 丢失 的 帧 序号 ; EL 是 视频 段 损失 
的 长 度 〈 以 帧 计 ， 或 叫 作 错误 长 度 ) ; EL 是 错误 长 度 的 最 小 值 ; D 是 从 最 后 一 
个 错 帧 到 序列 尾 的 距离 (时间 ， 以 秒 计 ),r 是 一 个 常数 ,通过 主观 等 级 到 模型 
的 最 小 二 乘 拟 合 来 确定 ; L 是 序列 长 度 ( 帧 数 ); N 是 包 损 失 数量 ; Los HE 
“损失 区 间 ”， 定 义 为 第 一 个 损失 帧 到 最 后 一 个 损失 帧 的 开头 (对 于 单个 损失 帧 的 
情况 ， 世 i 设 为 0); c 和 是 待定 常数 ;，s 是 sigmoid AARE (roll-off) 因数 ; 
PSNR, 是 PSNR 图 的 过 渡 值 ; DMOS., ,是 编码 瑕 辛 引 起 的 视觉 质量 退化 的 最 大 可 
能 值 。 

不 同 场景 内 容 的 五 个 视频 ( 见 表 1.4) 用 来 生成 一 大 组 测试 序列 。 场 景 内 容 包 
括 室 内 人 的 互动 、 户 外 运动 比赛 、 从 低 到 高 的 运动 、 和 普通 到 丰富 的 纹理 。 此 外 ， 
这 些 视 频 还 包括 各 种 摄像 机 的 运动 。 所 有 的 序列 分 辨 率 均 为 QVGA (320 x240), 
编码 帧 率 是 12f/s 或 15f/s， 时 长 为 20 ~40s。 表 1.5 描述 的 四 种 测试 可 以 研究 质量 
度量 标准 。 测 试 1 和 测试 2 被 设计 来 弄 清楚 视觉 质量 是 如 何 受 到 包 损 失 影 响 的 ， 而 
测试 3 关注 编码 瑕 间 的 有 影响。 前 3 项 测试 所 用 的 序列 都 从 原始 视频 “American Pie” 
中 产生 ， 用 来 探索 和 训练 客观 度量 标准 PDMOSCL。 测 试 4 所 用 的 序列 从 全 部 五 个 
视频 源 中 生成 ， 兼 有 编码 和 包 损 失 瑕 疫 ， 用 来 验证 PDMOSCL。 结 果 表 明 ， 对 于 
图 1.8 所 示 的 不 同 损 失 类 型 、 编 码 瑕 辛 、 和 场景 内 容 的 一 大 组 视频 片段 ， 这 个 度量 
标准 与 主观 质量 级 别 具 有 很 好 的 相关 度 。 

除了 以 上 的 全 参考 测度 ，Ninassi 等 | Q23 | 也 描述 了 一 个 全 参考 视频 质量 评价 
测度 ， 它 专注 于 空间 失真 的 时 间 变 化 。 该 空间 失真 的 时 间 变 化 在 整个 视频 序列 上 以 
眼睛 注视 水 平 进行 评价 。 
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图 1.8 DMOS (差分 评价 意见 分 ) 和 PDMOSCL 的 关系 


(“ 星 形 ”表示 测试 1 和 2 中 的 数据 ,“ 三 角形 ”表示 测试 3 的 数据 ， 实 心 “ 方 形 ” 对 应 测试 4 中 的 
训练 序列 。 空 心 “ 方 形 ” 用 于 检验 测试 4 中 的 序列 ，[Q24] 2009 IEEE) 


Pinson 和 Wolf [Q14] 提出 一 个 通用 的 视频 质量 测度 (VOM), XWF 
VQM = -0. 2097 x si_loss + 0. 5969 x hv_loss +0. 2483 x hv_gaint 

+0. 0192 x chroma_spread — 2. 3416 x si_gain + 0. 0431 x ct_ati_gain 

+0. 0076 x chroma_extreme (1.15) 
这 里 ，si_loss 检测 空间 信息 的 下 降 或 损失 Aan, E); hv_loss 检测 从 水 平和 
垂直 方向 到 对 角 方 向 的 边缘 俩 移 ， 例 如 可 能 是 这 种 情况 : 水 平和 垂直 边沿 比 对 角 边 
治 有 更 多 的 抖动 ; chroma_ spread 检测 二 维 颜色 样本 分 布 的 范围 变化 。 这 样 chro- 
ma_ spread 度量 了 颜色 的 损伤 。si_ gain 度量 由 边沿 锐 化 或 增强 产生 的 质量 改进 ; 
ct_ati_gain 用 对 比 度 特 征 和 时 间 信 息 特 征 的 乘积 来 计算 ， 前 者 度量 空间 细节 ， 后 者 
度量 S-T 区 域 出 现 的 运动 量 ; chroma_extreme 检测 严重 的 局 部 颜色 损伤 ， 诸 如 由 传 
输 误差 产生 的 损伤 。 


表 1.4 测试 视频 的 内 容 描述 [Q24] (2009 IEEE) 











视频 名 称 内 容 描述 
Americanpie 电影 预告 片 ， 人 们 在 谈话 和 走动 
Fl carrace 奔驰 的 汽车 ， 繁 忙 的 车 站 人 群 
Interview 人 们 在 静 静 地 坐 着 ,谈话 ， 近 看 
Paris 人 们 在 静 静 地 坐 着 谈话 ， 有 人 体 的 运动 


Baseketballgame 运动 员 在 奔跑 ， 射 球 和 庆祝 





表 1.5 四 项 测试 简 述 [Q24] (2009 IEEE) 



































测试 1 (12 个 序列 ) 测试 2 (13 个 序列 ) 
序列 描 述 核查 因数 序列 描述 核查 因数 
在 不 同位 置 有 相同 误差 的 3 个 序列 损失 位 置 ” 位 置 不 同 误 差 相 同 的 3 个 序列 。 损失 位 置 
不 同 误差 长 度 的 3 个 序列 (GPO = ”误差 长 度 。 短 误差 长 度 的 2 个 序列 误差 长 度 损 失 能 
2s) 见 度 
不 同 损失 类 型 的 3 个 序列 MRA PSNR 下 降 不 同 的 5 个 序列 损失 的 严重 程度 
不 同 损失 量 的 3 个 序列 损失 量 不 同 误差 类 型 的 3 个 序列 损失 类 型 
测试 3 (7 个 序列 ) 测试 4 (25 个 序列 ) 
序列 描述 核查 因数 。” ”序列 描述 核查 因数 
以 不 同 QP 编码 的 7 个 序列 PSNR 以 不 同 QP 编码 ， 包 损失 随机 模型 验证 
的 25 个 序列 


VQEG FR-TV (视频 质量 专家 组 全 参考 电视 ) 第 二 阶段 测试 [U9] 已 经 证 明 ， 
该 模型 可 以 对 525 行 和 625 行 的 视频 系统 产生 极 好 的 视频 质量 估计 ， 如 图 1.9 和 
图 1. 10 所 示 。 
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图 1.9 52547 VQEGFR-TV 第 二 阶段 图 1.10 625 行 VOECFR-TV 第 二 阶段 
测试 数据 片段 主观 质量 与 测试 数据 : 视频 段 主 观 质量 与 
H Et VOM [ Q14](2004IEEE) 视频 段 VOM [Q14] (2004IEEE) 


无 参考 视频 质量 评价 已 经 成 为 视频 质量 测度 领域 中 许多 人 研究 的 主题 。Oelbaum 
等 [Q25] 提出 了 一 种 无 参考 测度 ， 用 到 7 个 特征 包括 抖动 、 块 效应 、 空 间 活 动 
性 、 时 间 可 预测 性 、 边 沿 连 续 性 、 运 动 连续 性 、 和 颜色 连续 性 。 如 果 这 些 特征 值 分 
BFA pp, (=1，2，…，7) 来 表示 ， 再 定义 特征 矢量 P = (p,，p,，…，p;) ， 那 么 


NR 质量 测度 y 可 被 写作 





y=b, +p'b (1. 16) 
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AF, b 是 包含 每 个 特征 p, WEIHE b, (i=1, 2, =, 7) WIRE; 标量 
b, 是 模型 偏 移 。 四 个 不 同 的 特征 类 型 叫 作 低 比 特 率 、 拌 动 、 块 效应 和 常规 类 型 ， 
被 定义 来 对 视频 序列 进行 分 类 。 对 每 个 视频 类 型 这 4 个 不 同 模型 只 是 特征 p, 的 权 
mb, ( 见 图 1.6) 不 同 。 

表 1.6 不 同 特征 类 型 的 权重 [Q25] (2009 IEEE) 








低 比 特 率 Poo z 块 效 应 常 M 
抖动 -0.019 -0. 040 -0. 060 - 0. 030 
块 效应 -0. 046 -0. 090 -0. 114 -0. 045 
空间 活动 性 0. 024 0. 078 0. 060 0. 067 
可 预测 性 0. 003 0. 015 0. 026 0. 020 
边沿 连续 性 0. 015 0. 046 0. 040 0. 024 
颜色 连续 性 0. 006 0. 029 0. 014 0. 019 
运动 连续 性 0. 034 0. 031 0. 022 0. 074 


对 于 给 定 的 视频 序列 V， 通 过 分 析 视 频 的 低 质 量 版 本 Vi 的 特征 选择 一 个 合适 
的 模型 ，Vi,, 是 通过 用 一 个 高 的 量化 参数 (QP) 对 实际 视频 V 进行 编码 产生 的 。 
然后 ， 佑 计 V 的 特征 值 ， 选 出 的 测度 模型 用 于 计算 无 参考 质量 测度 。 欲 知 更 多 细 
他 ， 请 参考 论文 [Q25 ] 。 

Naccari 等 [Q26] 提出 了 一 个 无 参考 视频 质量 测定 算法 (PRA NORM) 来 日 
动 评价 视频 序列 中 信道 引入 的 失真 ， 该 序列 从 H. 264/ AVC 兼容 比特 流 中 解码 得 
到 ， 而 该 比特 流 是 经 由 一 个 受到 包 损 失 影 响 的 有 品 信 道 进 行 传输 的 。 但 是 NORM 
只 是 度量 信道 损失 带 来 的 失真 。 

与 主观 质量 具有 很 好 相关 度 的 一 个 客观 测度 是 结构 相似 度 指 标 测度 SSIM 
[Q13] ， 在 附录 C 中 有 详细 描述 。 


1.5 音频 的 数字 表示 



































数字 化 表示 音频 信号 最 普通 的 方法 是 用 脉冲 编码 调制 (PCM) 原理 将 一 个 模 
拟 音频 信号 数字 化 [01]。 以 固定 间隔 对 每 个 通道 的 音频 信号 进行 采样 ， 然 后 用 
A/D 转换 器 将 其 数字 化 为 PCM 码 ， 该 码 实际 上 是 离散 数字 [07] [04]。 按 照 奈 
奈 斯 特 采 样 定理 [B20] ， 如 果 对 一 个 信号 在 固定 间隔 以 略 高 于 信号 最 高 频率 两 倍 
的 速率 进行 即时 采样 ， 那 么 样本 值 就 包含 原始 信号 的 所 有 信息 。 音 频数 据 采 集 的 采 
样 频率 应 该 按照 人 类 听觉 系统 的 特性 来 确定 。 人 耳 的 动态 范围 大 约 是 140dB， 听 力 
带宽 最 高 为 20kHz [B15] [032]。 因 此 ， 音 频 信 号 应 该 以 至 少 40kHz 的 采样 率 进 
行 采样 才能 获得 高 质量 音频 。 这 就 是 CD 格式 采样 率 为 44. 1kHz (或 者 44100 E 
本 /s) 的 原因 ， 这 个 速率 比 我 们 能 听 到 的 最 高 频率 的 两 倍 稍 好 一 些 。 为 了 避免 混 冯 
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噪声 ， 模 拟 音频 信号 必须 通过 采样 -保持 [03] 电路 和 A/D 转换 右前 置 的 低 通 滤 
波 需 限制 佛 宽 [03 ] 。 另 一 个 重要 的 因素 是 A/D 转换 器 的 分 辨 率 ( 比特 数 )， 它 确 
定 了 音频 系统 的 动态 范围 。16bit 的 分 辨 率 只 人 够 再 生动 态 范 于 为 96dB 的 声音 ， 而 
24bit 理论 上 可 实现 144dB 的 动态 范围 。 典 型 的 采样 率 和 分 辨 率 分 别 包 括 44.1 - ， 
48 -，96 -，192-kHz， 和 16-，20 -，24- 比 特 。DVD 单 声 道 和 立体 声 支持 所 有 
这 些 采 样 率 和 分 辨 率 [033] ， 而 CD 音频 在 16bit 上 支持 44. 1kHz, 16 比特 分 辩 率 
上 的 48kHz 采样 率 能 产生 768kbit/s 每 信道 的 数据 率 ， 对 于 立体 声 信 号 这 意味 着 大 
约 1.5Mbit/s， 如 图 1.11 所 示 。 




















右 声 道 16bit 
GA ...768kbit/s  —1.5Mbit/s 
S ae 32/44.1/48kHz 
音频 采样 频率 压缩 
左 声 道 16bit 
/~ ... T68kbit/s | 
100...400kbit/s 
15...20kHz 
ane 32/44. 1/48kHz 


音频 采样 频率 


图 1.11 数字 音频 表示 [B15] (2008Springer) 


1.6 感知 音频 编码 的 基本 结构 





音频 编码 的 核心 目的 是 用 最 小 的 比特 数 来 表示 信号 ， 同 时 实现 透明 的 信号 青 
生 ， 也 就 是 说 ， 即 使 对 于 一 个 耳 条 灵敏 的 听 者 ， 产 生 的 输出 音频 与 原始 输入 也 无 法 
区 别 [1018] 。 感 知音 频 编 码 在 音频 编码 中 发 挥 痢 重要 的 作用 。 人 们 提出 了 许多 感 
知音 频 编 码 方法 [013，018，020，026，028-030] 和 若干 标准 [ 08-012, 
017，019，A4]。 多 数 感知 音频 编码 器 都 相当 类 似 于 图 1. 12 所 示 的 结构 。 


参数 










s) | 时 / 频 分 析 


心理 声学 分 析 


图 1.12 一 般 的 感知 音频 编码 器 [018] (1997IEEE) 
编码 器 一 般 把 输入 信号 分 割 为 时 长 为 2 ~ 50ms 的 准 平稳 帧 。 然 后 时 / 频 分 析 部 
分 对 每 个 分 析 帧 进行 分 解 。 时 / 频 分 析 近似 于 人 类 听觉 系统 的 时 间 和 谱 分 析 特 性 。 
它 把 输入 音频 变换 为 一 组 参数 ， 这 组 参数 可 以 按照 感知 失真 测度 进行 量化 和 编码 。 
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根据 系统 的 总 体 目 标 和 设计 思想 ， 时 / 频 分 析 部 分 可 以 包含 如 下 之 一 : 

。 ATH, 

。 时 不 变 均 匀 带 通 滤波 器 组 ，; 

e 时 变 (信号 自 适 应 的 ) 临界 采样 非 均 匀 带 通 滤波 器 组 ; 

。 混合 变换 /滤波 需 组 信号 分 析 闫 ; 

© WEI IEIZ IITR o 

时 - 频 分 析 方 法 的 选择 总 是 涉及 时 间 和 频率 分 辨 率 需 求 之 间 的 基本 权衡 。 感 知 
失真 控制 由 心理 声学 信号 分 析 部 分 来 控制 ， 该 部 分 基于 心理 声学 原理 估计 信和 号 的 掩 
蔽 功率 。 心 理 声 学 模型 传送 确定 最 大 失真 量 的 掩蔽 阔 值 ; 在 量化 和 时 频 参 数 编码 过 
程 中 ,该 失真 可 加 入 到 时 间 - 频 率 平 面 上 的 每 一 点 上 ， 而 没有 在 重建 信号 中 引入 可 
听 到 的 瑕 病 。 心 理 声学 模型 因而 允许 量化 和 编码 部 分 在 时 频 参 数 集中 利用 感知 不 相 
关 性 。 量 化 和 编码 部 分 也 能 通过 经 典 方法 诸如 差分 脉冲 编码 调制 (DPCM) 或 自 适 
应 DPCM (ADPCM) 利用 统计 宛 余 。 量 化 可 以 是 均匀 的 或 者 是 概率 密度 也 数 优化 
的 (Lloyd- Max) ， 而 且 可 以 对 标量 或 矢量 (VQ) 进行 。 一 旦 形成 了 一 个 紧凑 的 量 
化 参数 集 ， 剩 下 的 宛 余 一 般 通 过 游程 和 箭 编码 CN, RS, 算术,，LZW 
( Lempel- Ziv- Welch) [ DC2]) 技术 来 去 除 。 因 为 心理 声学 失真 控制 模型 是 信和 号 自 适 
应 的 ， 故 大 多 数 算法 都 具有 内 在 的 可 变 率 。 通 常 通过 绥 存 反馈 方案 来 满足 固定 信道 
速率 的 要 求 ， 这 样 做 常常 会 3 引入 编码 延 时 。 

MPEG 音频 编译 码 和 AVS 音频 编译 码 分 别 如 图 1. 13 和 1.14 所 示 。 我 们 可 在 这 
些 标准 的 编译 码 中 很 容易 发 现 类 似 于 图 1. 12 中 的 基本 结构 。 有 关 MPEG 和 AVS 音 
频 的 更 多 细节 可 以 分 别 在 [011, 012, 019] 和 [N2, N5, N8] 中 找到 。 









































编码 
PCM 时 频 映 射 比特 /噪声 比特 流 比特 流 
音 esha 分 配 ， 量 化 
输入 滤波 器 组 器 ， 和 编码 | -| 格式 化 





辅助 (选项 ) 数据 


a) 
比特 流 解 包 频率 采样 重建 频 时 映射 
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辅助 数据 (如 果 包 括 ) 
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图 1.13 MPEG 音频 编译 码 [012] (1995 IEEE) 
a) 编码 器 b) FRAGA 
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AVS 比 特 流 


AVS 
音频 比特 流 


图 1.14 AVS 音频 编译 码 [N2] (IEEE 2005) 
a) 编码 器 b) 解码 器 

















1.7 音频 编译 码 的 性 能 比较 测度 


像 视 频 编 译 码 的 性 能 评价 一 样 ， 为 了 评价 音频 编译 码 的 性 能 ， 也 应 该 考虑 一 些 
方面 包括 每 个 声 道 的 比特 率 、 计 算 成 本 (或 复杂 度 ) 以 及 质量 。 与 视频 一 样 ， 比 
特 率 的 单位 是 每 秒 的 比特 数 (bit/s)。 

音频 质量 评价 方法 可 以 分 为 两 类 : 主观 方法 [ 13-16, L8, L16] 和 客观 方法 
[L7, L10, L11, L15, L17, L19, 027], ITU-R 推荐 方案 BS. 1116 [LA] 定义 了 
一 个 高 质量 音频 编译 码 主观 评价 的 测试 程序 。 该 测试 程序 基于 “ 双 盲 、 隐 含 参 考 
三 重 激励 ”对 比方 法 。 在 此 方法 中 ， 给 定 听 者 三 个 激励 信号 : 参考 (原始 ) 信和 号、 
测试 信号 A 和 B。 在 A 和 B 当中 ， 有 一 个 损伤 (编码 ) 信号 ， 另 一 个 也 是 原始 信 
号 ( 隐 含 参考 )。 但 是 测试 对 象 和 监督 者 都 不 知道 A 和 B 当中 哪个 信号 是 隐 含 参 
考 。 在 听 完 所 有 的 三 个 信号 ， 该 对 象 必须 从 A MB 中 挑 出 隐 舍 参考 ， 然 后 利用 如 
图 1.15 所 示 的 五 级 损伤 标准 相对 于 参考 激励 对 另 一 个 〈 编 码 信 号 ) 进行 分 级 。 从 
最 好 到 最 坏 ， 编 码 失 真 分 级 为 “不 可 察觉 的 (5)”, “可 察觉 但 不 讨厌 的 (4.0 ~ 
4.9)”,“ 轻 度 讨厌 的 (3.0 ~3.9)”，“ 讨 厌 的 (2.0 ~2.9)”， 或 “非常 讨厌 的 
(1.0~1.9)”， 见 图 1. 15。 

如 果 用 符号 SDG G, 和 G, 分 别 来 表示 主观 差分 等 级 、 实 际 损伤 信号 的 得 分 和 
实际 隐 含 参考 信号 的 得 分 ， 那 么 SDG 可 定义 为 

SDG =G, -G, (1.17) 

C, 的 默认 值 是 5。 当 主体 正确 地 识别 了 隐 舍 参考 ，SDG AMA; 如 果 主 体 识别 
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质量 损伤 
优秀 5.0 ”感觉 不 到 

好 4.0 “可 察觉 但 不 讨厌 的 
一 般 3.0 ” 轻 度 讨厌 的 

差 2.0 ”讨厌 的 

坏 1.0 “讨厌 的 


图 1.15 五 级 损伤 标准 


错 了 隐 含 参考 ，SDG 为 正 值 。 经 过 多 个 对 象 和 多 次 试验 ， 计 算出 平均 损伤 分 数 ， 
再 相对 于 理想 情况 计算 编译 码 性 能 。 

在 ITU-R 的 推荐 方案 BS. 1534 [L8] 中 ， 开 发 了 一 个 叫 作 MUSHRA [116] 
具有 隐 含 参考 和 锚 的 多 激励 ) 的 主观 方法 用 于 编码 系统 中 等 质量 水 平 的 评价 。 
MUSHRA 是 一 个 双 育 多 激励 测试 方法 ， 有 一 个 已 知 参 考 、 一 个 隐 含 参考 和 一 个 或 
多 个 隐 含 锁 。 至 少 需 要 一 个 锚 是 参考 信号 的 低 通 版 本 。 按 照 MUSHRA 原则 ， 需 要 
参 试 对 象 以 连续 质量 等 级 制 对 激励 进行 评级 ， 该 等 级 分 为 五 个 区 间 ， 从 上 到 下 标记 
为 优秀 、 好 、 一 般 、 差 和 坏 。 然 后 这 些 分 数 正规 化 范围 为 0 ~ 100， 这 里 0 对 应 最 
低 等 级 (WEE) 

因为 主观 测定 既 耗 时 又 昂贵 ， 人 们 开发 了 多 种 客观 音频 质量 评价 方法 用 于 音频 
质量 的 自动 评价 。 音 频 质 量 评价 的 综述 和 最 新 进展 如 [L19] 陈述 ， 其 中 包括 音频 
质量 感知 评价 (PEAQ) 算法 的 简要 技术 总 结 ， 该 算法 在 ITU 标准 BS. 1387 [L7] 
中 提出 。 

设计 PEAQ 只 是 为 了 客观 地 对 有 极 小 损伤 的 信号 进行 分 级 。 图 1. 16 所 示 的 框 
图 描述 了 PEAQ 的 两 个 部 分 : 心理 声学 模型 和 认 知 模型 。 心 理 声 学 模型 包含 许多 不 
同 的 模块 ， 它 们 对 人 类 听觉 系统 的 各 个 独立 部 分 建 模 。 它 把 时 域 输入 信号 变换 为 一 
种 颅 底 膜 表 示 ( 即 ， 人 类 听觉 系统 中 颅 底 膜 的 模型 )。 认 知 模型 模拟 了 人 脑 的 认 知 
过 程 。 它 处 理由 心理 声学 模型 产生 的 参数 来 形成 一 个 质量 分 数 。 图 1. 16 也 告诉 我 
们 PEAQ 是 一 种 侵入 算法 ， 它 通过 比较 两 个 输入 信号 : 一 个 参考 (原始 ) 信号 和 
一 个 退化 (编码) 信号 来 产生 一 个 分 数 作为 质量 测度 。 
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图 1.16 PEAQ 算法 中 两 个 主要 部 分 的 框图 [L19] (2009 Elsevier) 





PEAQ 包括 两 个 版 本 : 一 个 基本 版 本 和 一 个 高 级 版 本 。 前 者 用 在 计算 效率 
很 成 问题 的 场合， 后 者 用 在 准确 度 至 关 重 要 的 场合 。 基 本 版 本 和 高 级 版 本 的 主 
要 结构 差异 在 于 ,基本 版 本 只 有 一 个 外 耳 模 型 (基于 FFT [B12] WY) Hee tie 
型 ) 而 高 级 版 本 有 两 个 外 耳 模 型 (基于 FFT [B12] 的 和 基于 滤波 絮 组 的 耳 条 
模型 ) 。 基 本 版 本 产生 11 个 模型 输出 变量 (MOV, Model Output Variables) 而 高 
级 版 本 只 产生 5 个 MOV, MOV 是 基于 啊 度 、 调 制 、 掩 贡 和 日 适应 性 的 输出 特 
征 。MOV 输入 到 神经 网 络 并 训练 网 络 把 他 们 映射 到 一 个 单独 的 ODG (overall 
difference grade， 总 体 差分 等 级 ) 分 数 。0DG 分 数 预测 了 退化 信号 的 感知 质量 。 
































ODG 分 数 范围 为 0 ~ -4, 0 表示 信号 具有 不 基于 FFT 基于 滤波 器 组 

可 感知 的 失真 ，-4 表示 信号 具有 非常 讨厌 。 AEE 

的 失真 。 频 域 处 理 (滤波 器 组 ) 
基于 FFT 的 耳 打 模型 用 在 PEAQ 的 两 个 

模型 中 ， 在 频 域 处 理 样 本 帧 。 基 于 滤波 融 组 中 外 耳 处 理 中 外 耳 处 理 

的 耳 条 模型 只 用 于 PEAQ 的 高 级 版 本 中 ,在 

时 域 中 处 理 数 据 。 在 图 1. 17 PARANE g 

型 中 ， 使 用 神经 网 络 把 mov myama E pias 

的 ODG 质量 分 数 。 而 产生 MOV 需要 用 到 两 


个 耳 杂 模型 的 输出 。 有 关 基 于 FFT 的 耳 呆 模 BB 匀 a 
型 和 基于 滤波 器 组 的 耳 休 模型 的 更 多 细节 ， 
请 参见 [L7] 和 [19], 

参数 诸如 响 度 、 调 幅 、 适 应 性 和 掩蔽 参 
数 的 范围 决定 了 MOV。 这 些 MOV 也 对 一 些 
概念 如 线性 失真 、 带 宽 、NMR 、 调 制 差 异 和 ome Eae 
噪声 响 度 进 行 了 建 模 。 它 们 通常 以 这 些 参数 
的 平均 值 来 计算 ， 这 些 参数 取 自 于 测试 和 会 HP 





a ' 电 平 与 模式 和 Eiaa 
考 信号 的 持续 时 间 段 内 ; 一 般 而 言 ， 要 从 每 目送 应 自 适应 





类 参数 (调制 、 响 度 、 带 宽 等 ) 中 得 到 不 止 
一 个 MOV。 有 关 MOV 的 详细 描述 在 [L7] 
和 [L19] 中 可 查 。 

式 (1.18) 定义 的 分 段 SNR [ LI, L2, 


模型 输出 变量 与 神经 网 络 














L12, L18] 是 一 种 简单 的 客观 语音 质量 亮 总 体 差分 等 级 
度 ， 它 是 多 个 短片 段 SNR (fa RIK) 值 的 图 1.17 PEAQ 的 详细 框图 
平均 [ L19] (1995 Elsevier) 
Mp-1 Nm+Ns-1 2 
x (n) 
SNR,,, = T Y logu 之 (1. 18) 
Bm=0 


Ldn) = a(n) F? 


on) 
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UP, a(n) 表示 原始 语 首 信号; dn) 表示 失真 信号 ; n 是 样本 下 标 ; N, 是 片段 
RE; M, 是 语 首 信号 中 的 片段 个 数 。Mermelstein [LI 以 另 一 种 方式 定义 了 分 段 
SNR, LA SNR,, 进 行 的 性 能 测量 是 一 个 波形 编译 码 声 音质 量 的 很 好 的 估计 量 , 但 对 
于 语音 编码 器 它 的 性 能 比较 差 ， 因 为 这 里 的 目的 是 生成 同样 的 语音 而 不 是 产生 语音 
波形 本 身 。 而 且 ， 分 段 SNR 与 主管 知觉 质量 的 相关 度 很 低 (只 有 0.531， 
如 [L17] 中 给 出 ) 。 尽 管 分 段 SNR 不 适合 独立 作为 知觉 音频 编 但 顺 的 性 能 评价 测 
度 ， 但 通过 与 其 他 分 量 进行 线性 组 合 构造 出 新 的 性 能 优越 的 知觉 质量 测度 时 它 可 用 
作 一 个 分 量 [L17]. 

Kandadai 等 人 [L14] 将 评价 结构 相似 度 应 用 于 音频 知觉 质量 的 客观 评价 。 
有 两 种 方法 。 在 第 一 种 方法 中 ， 音 频 序列 分 成 长 度 为 128 重复 率 为 50% 的 时 间 
帧 ， 然 后 分 别 对 每 一 帧 使 用 结构 相似 度 (SSIM) [Q13 ] 。 通 过 对 每 帧 的 SSIM 
取 平 均 算出 平均 SSIM (MSSIM ) 。 这 种 方法 被 称 作 时 间 MSSIM (T-MSSIM ) 。 
在 第 二 种 方法 中 ,使 用 了 50% 的 重复 窗口 256 点 改进 的 离散 余弦 变换 
(MDCT) [ 05, 06 ] 将 音频 序列 分 解 为 一 种 时 频 表 示 ， 然 后 把 SSIM 用 于 时 频 表 
示 的 二 维 块 。 这 种 方法 被 称 作 时 频 MSSIM ( TF-MSSIM ) T-MSSIM 和 TF- 
MSSIM 与 MUSHRA [L8] 主观 质量 的 相关 系数 分 别 是 0.98 和 0. 976。 这 说 明 
MSSIM 与 主观 测试 高 度 相 关 。 

[LO] 提出 了 能 量 均 衡 质 量 测度 (EEQM) 用 于 高 损伤 音频 的 质量 评价 。 在 
该 方法 中 ， 原 始 音频 谱 图 以 阔 值 Tisow 进 行 截取 (原始 音频 谱 图 系数 超过 Tergu Y 
幅 值 保留 ， 其 他 的 设 为 去) 。 对 于 TEEQM 的 每 个 特定 的 值 ， 计 算 截 断 谱 图 的 能 
量 并 与 重建 信号 的 带 通 谱 图 能 量 进 行 对 比 。TEEQM 通过 一 个 迭代 优化 算法 进行 
调整 ， 使 原始 频谱 的 截断 版 本 与 重建 信号 的 融通 谱 图 具有 相等 的 能 量 和 类 似 的 时 
频 特 性 。 然 后 ， 最 优 的 TEEQM 用 作 测 试 信号 的 损伤 度量 。 而 且 ，TEEQM 与 模型 
输出 变量 (MOV)[1L7] 组 合 在 一 起 形成 一 个 简单 又 稳健 的 音频 质量 通用 测度 
[L13]. 

谱 带 复制 (SBR)[022, 023] 是 一 种 新 的 音频 编码 工具 ， 它 显著 改善 了 知 
觉 编 码 器 和 语音 编码 器 的 编码 增益 。 目 前 ,通过 结合 SBR 有 三 个 不 同 的 音频 编 
码 需 表现 出 极 大 的 性 能 改善 : MPEG-AAC，MPEG 第 2 层 和 MPEG 第 3 层 
(mp3) ， 这 三 个 都 是 开放 标准 ISO- MPEG 其 中 的 部 分 。AAC 和 SBR 的 组 合 将 用 
在 标准 化 数字 无 线 电 Mondiale (DRM) 系统 中 ，SBR 目前 正 被 标准 化 在 MPEG-4 
内 。SBR 就 是 所 谓 的 带宽 扩展 技术 ， 其 中 信号 带宽 的 主要 部 分 由 接受 边 禹 的 下 边 
带 重建 得 到 ,论文 [023] 重点 关注 了 SBR 的 技术 细节 ， 特 别 是 滤波 器 组 ， 它 
是 SBR 过 程 的 基础 。 

AAC 和 SBR 的 组 合 一 一 aac + ， 是 目前 最 有 效 的 音频 编码 器 ， 与 已 经 很 强大 的 
AAC 编码 器 相 比 ， 编 码 效率 提高 了 30% LAE, SBR 系统 的 基础 是 调制 的 复数 QMF 
组 ， 复 数 表 示人 允许 子 带 修改 而 不 会 引入 过 多 的 混 友 。 







































































1.8 BE 


本 章 简 述 (对 比 ) 了 不 同 的 视频 /图 像 编 码 标准 ， 诸 如 JPEG, MPEG 和 H. 26x 
系列 之 外 ,还 有 DIRAC (第 7 章 ) AVS China (第 3 章 ) 和 VC-1 (第 8 È), X 
比 测度 紧 接 着 关于 音频 编码 的 类 似 简 述 总 结 了 本 章 。 这 些 方面 在 第 2 章 做 进一步 的 
阐述 。 








#25 视频 编码 标准 和 视频 格式 


摘要 : 介绍 了 视频 格式 以 及 RGB 、Y、Cb、Cr 和 YUV 之 间 的 转换 。 这 些 基 本 
上 是 第 1 章 的 延续 ， 因 而 补充 了 第 1 章 讨 论 过 的 内 容 。 

关键 字 : 视频 压缩 ”视频 编码 标准 ”采样 格式 ”视频 格式 RGB YUV 
YCbCr 质量 PSNR SSIM 
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从 模拟 电视 到 数字 电视 ,从 VHS 视频 磁 市 到 DVD， 从 只 用 于 打 电 话 和 发 短信 
的 蜂 宽 电话 到 具有 照相 、 网 络 浏览 占 、 导 航 系统 、 社 交 网 络 平台 功能 而 很 少 用 于 打 
电话 的 蜂 寅 电话 ， 在 过 去 几 年 中 按照 用 户 创 造 、 分 享 和 观看 视频 的 方式 ， 已 经 经 历 
了 一 场 重大 的 变 单 。 商 业 因 素 和 技术 进步 推动 了 数字 视频 工业 的 不 断 演进 。 丙 业 驱 
动 来 自 于 用 户 和 商家 对 于 潜在 巨额 收益 的 信心 。 在 技术 领域 ,这些 因素 包括 较 好 的 
通信 基础 设施 、 廉 价 的 客 带 网 络 、4G 移动 网 络 以 及 便于 使 用 的 记录 、 编 辑 、 共 至 
和 观看 视频 的 应 用 程序 。 

在 从 信 源 〈 摄 像 机 或 存储 的 视频 片段 ) 获得 视频 到 目的 终端 〈 显 示 做 ) ， 涉 及 
一 系列 过 程 。 这 项 工作 的 关键 过 程 是 压缩 (编码 ) 和 解压 〈 译 码 ) ， 然 后 重建 来 显 
示 ， 编 译 码 涉及 把 “带宽 密集 型 的 ”原始 视频 源 降 低 到 最 优 大 小 以 适 于 传输 或 存 
储 。 为 了 使 商业 和 技术 优势 进入 到 产品 中 ,压缩 和 解压 过 程 应 该 在 三 个 参数 之 间 达 
到 一 种 合理 的 平衡 ， 这 三 个 参数 彼此 是 不 相关 的 : 视频 质量 、 编 码 时 间 和 大 小 。 因 
此 人 们 对 于 视频 压缩 和 解压 技术 和 系统 方面 存 有 浓厚 兴趣 。 

局 比特 率 连 接 、 大 容量 硬盘、 闪存 和 光 介 质 的 市 场 经 历 长 期 发 展 持续 壮大 已 经 
充分 满足 用 户 的 需求 。 伴 随 着 传输 或 存储 每 个 比特 的 价格 的 不 断 下 降 ， 视 频 压 缩 成 为 
绝对 必 不 可 少 的 工作 ， 而 且 人 们 进行 了 大 量 的 努力 使 其 更 加 完善 。 让 我 们 想象 一 下 没 
有 视频 压缩 的 世界 ， 当 前 的 互联 网 夺 吐 率 将 不 够 实时 地 处 理 未 压缩 的 视频 (其 至 在 
低 巾 泰和 /或 小 的 帧 分 辨识 下 )， 数 字 通 用 光盘 (DVD) 只 能 以 电视 质量 的 分 辨识 和 
帧 率 存 储 几 秘 钟 的 原始 视频 。 视 频 压 缩 使 得 资源 的 有 效 传输 和 存储 成 为 可 能 。 例 如 ， 
如 末 具 备 高 比特 率 传输 信道 ， 那 么 发 送 高 分 辨识 压缩 的 视频 或 多 个 压缩 视频 比 发 送 单 
个 低 分 辨认 和 无 压缩 的 视频 流 更 有 吸引 力 。 即 使 伴随 着 存储 和 传输 能 力 的 稳步 发 展 ， 
在 未 来 很 长 的 时 间 里 ， 压 缩 仍 然 有 可 能 是 多 媒体 业务 中 必 不 可 少 的 一 个 部 分 。 

按照 定义 ， 压 缩 是 从 一 个 携带 信息 的 信号 中 去 除 元 余 的 过 程 。 在 无 损 奈 缩 系统 
中 ， 去 除 统计 元 余 从 而 使 原始 信号 能 在 接收 端 被 完美 地 重建 。 不 幸 的 是 ， 这 里 存在 一 
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PIR: 无 损 方 法 只 能 达到 视频 信和 号 不 怎么 高 的 压缩 量 。 大 多 数 实用 的 视频 压缩 算法 
都 是 基于 有 损 压 缩 的 ， 可 以 实现 更 大 的 压缩 ， 但 后 果 是 解码 的 视频 信和 只 与 原始 信号 不 完 
全 相同 。 视 频 压 缩 算法 的 目的 是 实现 有 效 压 缩 的 同时 ， 使 压缩 过 程 引 入 的 失真 最 小 。 

对 于 视频 片段 的 情况 ， 有 可 能 通过 将 无 损 和 有 损 编码 背后 的 原理 组 合 起 来 进行 
数据 的 压缩 。 构 造 视频 片段 最 简单 的 办 法 是 截取 连续 几 幅 图 像 并 把 它们 称 为 帧 。 在 
视频 片段 里 存在 许多 固有 的 兄 余 ， 一 个 给 定 的 帧 里 包含 的 多 数 信 息 也 会 出 现在 前 一 
帧 中 。 任 何 帧 内 只 有 一 小 部 分 是 新 信息 ; 通过 计算 那 一 小 部 分 信息 的 所 在 ， 而 且 只 
存储 那 部 分 信息 量 ， 那 么 就 有 可 能 大 幅 降 低 该 帧 的 数据 量 。 压 缩 过 程 涉及 将 压缩 算 
法 用 于 源 视 频 以 创建 一 个 压缩 文件 以 便于 传输 或 存储 。 将 相反 的 算法 用 于 压缩 视频 
以 产生 一 个 看 起 来 具有 与 原始 视频 几乎 相同 的 内 容 的 视频 。 这 对 算法 一 起 工作 ， 叫 
作 视 频 编 解码 需 (Codec， 编 码 需 /解码 需 ) 。 

视频 压缩 算法 如 MPEG-4 [B8] FI H.264 [B8，B18，H44] 是 高 度 复杂 的 过 程 ， 
涉及 许多 技术 ， 如 差分 编码 ， 其 中 只 有 第 一 帧 是 被 完全 编码 的 。 如 图 2. 1 所 示 ， 在 两 幅 
连续 的 图 像 中 ， 作 为 参考 的 第 一 幅 图 像 充 当 静 态 元 素 ， 也 就 是 房子 。 只 有 运动 部 分 ， 
也 就 是 奔跑 的 人 ， 用 运动 矢量 进 行 编码 ， 这 样 就 降低 了 发 送 和 存储 的 信息 量 。 也 包括 
一 些 技术 如 基于 块 的 运动 补偿 来 进一步 减少 数据 。 基 于 块 的 运动 补偿 基于 如 下 观察 : 
视频 序列 中 新 的 一 帧 可 以 在 前 面 一 帧 中 找到 ， 不 过 可 能 在 不 同 的 位 置 。 该 技术 把 一 帧 
分 为 一 系列 宏 块 (像素 块 ) 。 _ 传输 的 _ _ 不 传输 的 
新 的 一 帧 可 以 通过 逐 块 地 在 参 
考 帧 中 发 现 匹 配 块 的 方式 预测 
得 到 。 如 有 果 存 在 匹配 ， 编 码 需 
只 对 参考 帧 里 发 现 匹 配 块 的 位 
置 进行 编码 。 这 个 方法 比 编 码 
一 个 块 本 身 的 内 容 需 要 少 得 多 图 2.1 运动 视频 压缩 算法 的 帧 间 预 测 [「V9 ] 
的 比特 ( 见 图 2.2)。 






































搜索 窗口 





参考 帧 


图 2.2 基于 块 的 运动 补偿 图 解 [V9 | 
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H. 264 视频 编码 标准 是 由 ITU-T 视频 编码 专家 组 (VCEG Video Coding Expert 
Group) 和 ISO/IEC 运动 图 像 专家 组 (MPEG, Moving Picture Expert Group ) [ H44 | 
联合 开发 的 最 新 的 基于 块 运动 补偿 的 编译 码 标准 。H. 264 标准 的 目的 是 建立 一 个 在 
低 得 多 的 比特 率 上 能 实现 与 以 前 标准 质量 相当 的 标准 。H. 264 提供 了 比 以 往 任何 标 
准 更 好 的 压缩 ， 它 包括 大 干 内 置 的 特征 以 支持 在 一 系列 信道 和 网 络 上 进行 可 和 菲 稳健 
的 传输 。 不 幸 的 是 ， 与 以 往 标准 相 比 ， 这 需要 付出 增加 编码 带 计 算 复杂 度 的 代价 。 
为 了 实现 H. 264/AVC 的 实用 性 ， 必 须 在 保持 编码 效率 的 同时 实现 编码 复杂 度 的 显 
HER [H35], 


2.2 复杂 度 的 降低 


在 智能 手机 和 平板 电脑 等 设备 上 捕获 和 播放 高 清 视频 的 需求 导致 了 开发 有 效 的 
低 复 杂 度 视频 编码 器 这 一 颇具 挑战 性 的 工作 。 来 自 全 球 的 研究 者 们 提出 了 许多 方法 
来 降低 H. 264 的 复杂 度 。 人 们 提出 了 多 种 不 同 的 帧 内 模式 复杂 度 降低 方法 ， 如 
[HL0，H12，H14，H35 ] ， 但 是 很 少 有 方法 实现 了 有 效 的 编码 。 一 些 方法 减少 了 
编码 时 间 ， 但 是 不 能 保持 原始 视频 片段 的 编码 质量 。 在 编码 增益 和 视频 质量 之 间 达 
到 一 种 平衡 是 很 重要 的 。[ H27] 提出 了 一 种 有 效 的 帧 内 编码 模式 复杂 度 降 低 算 法 ; 
大 大 降低 了 视频 片段 的 编码 时 间 ， 带 来 的 质量 损失 和 比特 率 的 增加 却 都 可 忽略 。 

Muniyappa 的 学 位 论文 〈 见 最 后 的 附 言 ) 通过 利用 JM 18.0 [H30] 集中 讨论 
了 降低 H. 264 帧 内 模式 选择 的 编码 复杂 度 。 它 很 大 程度 上 基于 相 邻 安 块 特性 趋 于 
类 似 这 一 现象 。 这 样 ， 通 过 简单 地 使 用 方向 掩 模 和 相 邻 模式， 检查 所 有 可 能 编码 模 
式 组 合 的 RDO ( 率 失真 优化 ) 过 程 通常 繁重 的 任务 能 得 以 显著 减轻 [ H27 ] 。 按 照 
不 同 视频 格式 和 视频 上 下 文 的 编码 时 间 来 看 ， 实 验 结 果 表 明了 复杂 度 的 减少 。 
2.3 ~2.5 节 给 出 了 有 关 视 频 编 码 标准 和 视频 格式 的 简要 但 深入 的 陈述 。 


2.3 ”视频 编码 标准 


人 们 已 经 提出 了 许多 视频 编码 方法 ， 而 且 许多 其 他 研究 仍 在 进行 中 。 每 年 发 表 
的 数 以 百 计 的 研究 论文 描述 了 各 种 新 的 压缩 方法 。 然 而 ， 商 业 视 频 编码 应 用 趋向 于 
使 用 有 限 的 儿 个 标准 化 方法 进行 视频 压缩 。 标 准 化 视频 编码 格式 具有 如 下 若干 好 处 
[B14]: 

。 标准 简化 了 来 自 不 同 出 品 商 的 编码 器 和 解码 器 之 间 的 互 操作 性 ; 

© 标准 使 建立 综合 视频 平台 成 为 可 能 ， 在 次 平台 中 ， 许 多 不 同 的 应 用 如 视频 
编译 码 、 音 频 编 译 码 、 传 输 协 议 、 安 全 和 版 权 管 理 以 定义 完好 且 一 致 的 方式 进行 
互动 ; 

。 许多 视频 编码 方法 都 获得 了 专利 权 ， 因 此 一 个 特定 视频 编译 码 执行 方案 可 
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能 会 存在 侵犯 专利 权 的 风险 。 执 行 标准 所 需要 的 技术 和 算法 都 是 严格 定义 的 ， 而 且 
涵盖 这 些 技 术 的 专利 许可 费 ， 即 授权 使 用 包含 在 专利 中 的 技术 的 费用 ， 也 被 清楚 地 
规定 下 来 。 








2.4 MPEG 和 H. 26x 





这 些 建 议 或 国际 标准 是 由 ITU-T SG16 Q.6 (国际 电信 联盟 )[ 也 叫 作 VCEG 
(视频 编码 专家 组 )] 和 ISO/IEC JTCI/SC29/WG11 (国际 标准 化 组 织 ) [也 叫 作 
MPEG (运动 图 像 专家 组 ) ] 联合 准备 的 。VCEG 在 1997 年 [H44] 形成 ， 以 维护 
以 前 的 ITU-T 视频 编码 标准 并 开发 新 的 用 于 一 系列 会 话 和 非 会 话 业务 的 视频 编码 
标准 。MPEG F 1988 年 [S13] 形成 ， 以 建立 面向 各 种 应 用 如 数字 存储 媒体 、 发 布 
和 通信 的 运动 图 像 和 相关 音频 的 编码 标准 。 以 后 ,在 2001 年 ，ITU-T 视频 编码 专 
家 组 (VCEG) 和 ISOZIEC 运动 图 像 专家 组 (MPEG) 形成 了 一 个 联合 视频 团队 
(JVT) 以 开发 一 个 新 的 建议 或 国际 标准 ，H. 264 建议 /MPEG-4 标准 第 10 部 分 
[H12], 





2.4.1 H. 120 


H. 120 [S1], #76 1984 年 由 ITU-T 以 前 的 CCITT (国际 电报 电话 咨询 委员 
会 ) 开发 的 第 一 个 数字 视频 编码 标准 。 之 后 它 演化 出 不 同 的 版 本 ，1984 年 开发 的 
版 本 1 的 特征 是 条 件 补 充 、 差 分 脉冲 编码 调制 、 标 量 量化 、 变 长 编码 和 一 个 梅花 形 
采样 的 开关 。1988 年 开发 的 版 本 2 加 入 了 运动 补偿 和 背景 预测 。 由 于 创建 了 ITU-T 
来 代替 以 前 的 CCITT 标准 化 团体 ，1993 年 ， 发 表 了 最 终 版 本 。H. 120 视频 流 对 于 
NTSC (国家 电视 制式 委员 会 ) 速率 为 1544kbit/s， 对 于 PAL ( 逐 行 倒 相 制式 ) E 
认为 2048kbit/s [S11]。 

由 于 其 中 的 差分 PCM (脉冲 编码 调制 ) 是 逐 像素 工作 的 ， 在 实用 中 H. 120 视 
频 的 质量 并 不 好 。 逐 像素 工作 的 差分 PCM 对 于 空域 分 状 率 很 好 ， 但 时 域 方 面 质 量 
的 确 很 差 。 因 而 有 必要 在 不 超过 视频 流 的 目标 比特 率 的 前 提 下 改善 视频 质量 。 研 究 
者 们 提出 了 H. 120 之 后 的 基于 块 的 编译 码 方案 ， 例 如 H. 261 [S4], 


2.4.2 H. 261 


H. 261 [S4, B3] 是 首 个 在 实用 中 获得 广泛 成 功 的 视频 编译 人 码 方案 (从 数 
量 显著 的 产品 支持 方面 来 看 ) 。 该 ITU-T 视频 编码 标准 于 1988 年 首次 设计 ， 是 
H. 26x 家 族 的 第 一 个 成 员 。H. 261 最 初 设计 是 用 在 ISDN (综合 业务 数字 网 ) 
的 线路 传输 ， 该 线路 的 数据 率 是 64kbit/s 的 整数 倍 。 它 的 编码 算法 综合 了 运动 
补偿 的 帧 则 预测 和 16 x 16 的 宏 块 运动 补偿 的 空域 变换 编码 ，8 x8 的 DCT ( 离 
PAAR KA) (B2), 标量 量化 ，Z 形 扫 描 和 变 长 编码 。 所 有 后 来 的 国际 视频 编 
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人 码 标 准 都 深 深 地 植 根 于 H. 261 的 设计 [S11], Al2.3 所 示 为 H. 261 编译 码 方 
案 的 概要 框图 。 


外 部 控制 


编码 控制 
Ere O E 要 
源 编码 器 


视频 信号 编码 比特 流 








图 2.3 H.261 编码 融和 解码 各 的 概要 框图 [S4] (ITU-T 1993) 


a) Fils b) 解码 需 

















2.4.3 MPEG-1 


MPEG-1 (运动 图 像 专家 组 )[S3] 于 1993 年 由 ISO/IEC JTC1 SC29 WG11 
(MPEG) 开发 。MPEG-1 为 NTSC 提供 352 x 240 ( 源 输 入 格式 ) 的 分 辨 率 ， 在 
1. 5Mbit/s 上 为 PAL 提供 352 x288 的 分 辨 率 。 当 运行 在 较 高 比特 率 上 时 ，MPEC-1 
与 H. 261 相 比 具有 更 优越 的 视频 质量 ， 且 接近 于 VHS 的 质量 。 它 的 主要 应 用 集中 
在 多 媒体 视频 存储 上 (例如 CD-ROM) 。 


2.4.4 H. 262/MPEG-2 





H. 262/MPEG-2 编码 标准 由 ITU-T 视频 编码 专家 组 和 ISO/IEC 运动 图 像 专 家 
组 于 1994 年 联合 开发 [S1]。MPEG-2 视频 类 似 于 MPEG-1， 但 也 提供 对 隔行 扫描 
视频 的 支持 (模拟 广播 电视 系统 使 用 的 格式 )。MPEG-2 视频 在 低 比 特 率 RF 
IMbit/s) 上 没有 优化 ， 但 在 3Mbit/s 及 以 上 性 能 超越 了 MPEG-1。 为 保持 标准 的 一 
SHE, MPEG-2 也 与 MPEG-1 RR, LARE MPEG-2 播放 需 可 以 不 加 任何 修改 地 
播放 MPEC-1 视频 。 


2.4.5 H.263, H. 263 + 和 H. 263 ++ 


下 一 代 视 频 编 码 超越 了 H. 261 成 为 最 主要 的 视频 会 议 编译 码 系统 。H. 263 
[S6] 在 所 有 比特 率 上 与 其 以 前 的 标准 相 比 都 具有 优越 的 翻 倍 的 视频 质量 。H. 263 
版 本 1 由 ITU-T 制 订 于 1995 年 。 优 于 H.261 [S11] 的 特征 如 下 : 

© DCT 系数 的 3-D 变 长 编码 ; 

。 运动 矢量 中 值 预测 ; 

© 双 回 预测 ; 








。 FORA 

H. 263 + 或 版 本 2 于 1997 年 底 1998 年 初 制订 [S7]， 它 包含 了 许多 新 特征 ， 
如 抗 误 码 、 自 定义 灵活 的 视频 格式 、 增 补 的 增强 信息 、 也 存在 超越 H. 263vl 的 压 
缩 效 率 。H. 263 ++ 或 版 本 3 [S6] ， 制 订 于 2000 年 ， 在 图 像 质量 、 包 损失 和 抗 误 码 
方面 有 明显 的 改善 ， 而 且 附 带 了 增补 的 增强 信息 。 


2.4.6 MPEG-4 


MPEG-4 [S9], A MPEG (运动 图 像 专家 组 ) 于 1998 年 底 制 定 的 ISO/IEC 
标准 。 为 了 获得 2000 年 初 的 正式 国际 标准 地 位 ，MPEG-4 版 本 2 名 下 的 完全 后 向 
兼容 的 扩展 部 分 于 1999 年 底 被 冻结 。 为 了 满足 从 低 质量 低 分 辨 率 的 监控 摄像 机 到 
高 清 电视 广播 和 DVD 的 需要 ，MPEG-4 第 2 部 分 大 约 有 21 个 档次 。 部 分 档次 罗列 
如 下 [S9]: 
简单 档次 ; 

。 简单 可 扩展 档次 ; 
e ERK; 

© 核心 档次 ; 

oN 比特 档次 ; 

。 混合 档次 ; 

e 基本 动画 纹理 档次 ; 
。 可 扩展 纹理 档次 ; 
o 简单 人 脸 动画 档次 ; 
。 核心 可 扩展 档次 ， 
e 高 级 可 扩展 纹理 档次 ; 
o 人 简单 FBA; 

高 级 编码 效率 档次 ; 
。 高 级 实时 简单 档次 。 


2.4.7 H.264/MPEG-4 Æ 10 部 分 /AVC 








1998 年 ，ITU-T 视频 编码 专家 组 (VCEG) 着 手 一 项 需要 长 期 努力 的 工作 来 起 草 
“H. 26L” 标 准 ， 它 将 能 提供 明显 好 于 以 往 ITU-T 标准 的 视频 压缩 效率 。2001 年 ， 
ISO 运动 图 像 专 家 组 (MPEG) 认可 了 H. 26L 的 潜在 价值 ， 组 建 了 包括 来 自 MPEG 和 
VCEG 专家 的 联合 视频 团队 (JVT) ,该 团队 具有 形成 新 视频 编码 标准 H. 2647 AVC 的 
许可 证 。 该 新 标准 的 正式 名 称 是 高 级 视频 编码 (AVC); 然而 ， 它 的 旧 的 工作 名 称 
H. 26L 广为人知 ， 按 照 ITU 的 文档 编号 是 H. 264 [ H44, H23, H25, H2], 

图 2. 4 IRN ER AS EER (7K Be Se EAEE EME EMMER 
“LITLE A AY SF PI ACA AG, Nam Ling TEE) 6 














第 2 章 视频 编码 标准 和 视频 格式 37 





与 之 前 的 视频 编码 标准 相 比 ，H. 264 [H44] 带 来 了 压缩 比 的 显著 提高 ， 也 节 
约 了 高 达 50% 的 比特 率 。 通 过 支持 编码 的 灵活 性 以 及 编码 数据 的 组 织 ， 该 标准 能 
提高 抗 误 码 能 力 。 与 其 他 标准 相 比 ，H. 264 编码 效率 的 提高 以 及 具有 的 编码 灵活 性 
是 以 提高 复杂 度 为 代价 的 。 第 4 章 将 非常 详细 地 讨论 这 些 特 征 。 
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图 2.4 国际 视频 编码 标准 年 谱 


2.4.8 H.265/HEVC 


高 效 视频 编码 (HEVC) 是 由 ITU-T/ISO-IEC 正在 制订 的 最 新 视频 编码 标准 。 
2013 年 1 月 ， 三 个 档次 (Main 、Main10 和 Main 静止 图 像 一 一 只 是 帧 内 模式 ) 已 被 
ITU-T 批 准 通过 。 第 5 章 将 详细 说 明 。 


2.5 视频 格式 和 质量 


真实 世界 的 典型 场景 由 多 个 对 象 、 以 及 它们 各 目的 特征 形状 、 深 度 、 纹 理 和 腕 
度 构 成 。 典 型 自然 视频 场景 的 空间 特征 和 时 间 特 征 对 于 视频 处 理 和 压缩 都 是 有 关 
的 。 空 间 特征 包括 场景 内 的 纹理 变化 、 对 象 的 数量 和 形状 、 颜 色 等 ;， 时间 特征 包括 
对 和 象 的 运动 、 腕 度 的 改变 、 摄 像 机 或 视点 的 运动 等 。 一 个 自然 视觉 场景 在 空间 上 和 
时 间 上 都 是 连续 的 。 把 一 个 视觉 场景 表示 为 数字 形式 包括 实际 场景 的 空间 和 时 间 采 
样 ， 空 间 采 样 通常 在 视频 图 像 平 面 的 矩形 网 格 上 进行 ， 而 时 间 有 采样 是 在 固定 的 时 间 
间隔 上 成 为 一 系列 静止 帧 或 者 帧 的 分 量 ( 见 图 2. 5) 。 数 字 视 频 是 采样 的 视频 场景 
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以 数字 形式 的 表示 [B18]. 








视 间 样本 


图 2.5 视频 序列 的 空间 和 视觉 采样 (2010 Wiley) 


2.5.1 W5% 


视频 信号 可 按 完整 的 帧 序列 渐进 地 采样 ， 或 者 是 被 隔行 采样 为 隔行 场 序列 。 在 
交错 视频 序列 中 ， 两 个 场 构 成 一 幅 视 频 帧 (LA 2.6) ， 一 个 场 包括 或 者 是 一 个 完 
整 视频 帧 的 奇数 行 或 者 是 偶数 行 。 这 种 采样 方法 的 优点 是 ， 在 相同 的 数据 率 下 ， 它 
在 每 秒 钟 发 送 的 场 数 可 以 是 相同 渐进 序列 帧 数 的 两 倍 ， 同 时 能 给 出 更 平滑 的 运动 视 
wR [B18], 


2.5.2 颜色 空间 




















几乎 目前 所 有 的 数字 视频 应 用 都 要 显示 彩色 ; 因此 有 必要 表示 这 种 压缩 信息 。 
颜色 空间 是 表现 完 度 和 颜色 的 有 用 方法 ( 见 图 2.7)。 





WENA 场 图 像 


底 场 





图 2.6 隔行 视频 序列 图 2.7 红 绿 蓝 颜 色 空间 


在 RGB 颜色 空间 中 ， 彩 色 图 像 的 一 个 像 系 由 三 个 数 来 表示 ， 这 三 个 数 指明 红 、 
绿 和 蓝 “(日光 的 三 个 主要 合成 颜色 ) 的 相对 比例 。 任 何 颜色 都 可 以 由 不 同 的 比例 
的 红 、 绿 和 蓝 组 合 而 成 。 在 RGB 颜色 空间 中 ， 这 三 种 颜色 同等 重要 ， 因 而 通常 以 
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相同 的 分 辨 素 进行 存储 。 然 而 ， 人 类 视觉 系统 对 于 色差 的 敏感 度 低 于 对 腕 度 的 敏感 
度 。 因 此 ， 人 们 使 用 了 著名 的 YUV 颜色 空间 ， 通 过 把 亮度 和 颜色 信息 分 离开 来 而 





且 以 高 于 颜色 的 分 辩 率 来 表示 亮度 ，YUV 可 以 更 加 有 效 地 表示 一 幅 彩 色 图 像 。 
立 是 亮度 分 量 ， 可 被 计算 为 R、G 和 B 的 一 种 加 权 平 均 。 
Y=kR+k,G+k,B (2.1) 


其 中 ，k +k, +k, =1. 
色差 信息 (GEE) 可 写 为 


Cb=B-Y (2.2) 
Cr=R-Y (2.3) 
Ce=G-Y (2.4) 


实际 上 ， 视 频 编 码 只 需要 传输 三 个 分 量 CY, Ch 和 Cr) ， 因 为 Cg TAMA Y, 
Cb 和 Cr 中 得 到 。 按 照 ITU-R 的 推荐 [S12], k, =0.299, k, =0.587 Fl k, = 
0.114。 那 么 式 (2.2)~ 式 (2.4) 可 重 写 为 


Y =0. 299R +0. 587G +0. 114B (2.5) 
Cb =0. 564(B - Y) (2.6) 
Cr=0.713(R-Y) (2.7) 

R =Y +1. 402Cr (2.8) 
G =Y -0. 344Cb -0.714Cr (2.9) 
B =Y +1. 772Cb (2.10) 


图 2.8 所 示 为 一 幅 彩 色 图 像 的 红 、 绿 和 蓝 分 量 ， 图 2. 8b 所 示 为 相应 的 色 度 分 
量 Cr、Cg 和 Cb 分量 以 进行 对 比 。 


WE 








b) 


图 2.8 a) 彩色 图 像 的 红 、 绿 和 蓝 分 量 [B18] (2010 Wiley) 
b) 彩色 图 像 的 Cr、Cg 和 Cb 分 量 [B18] (2010 Wiley) 
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YCbCr 采样 格式 

图 2. 9 所 示 为 现代 视频 编码 标准 如 MPEG-4 视觉 和 H. 264 支持 的 Y、Cb 和 
Cr 的 三 种 采样 模式 。4:4:4 采样 保持 了 色 度 分 量 的 完整 信息 。 三 个 分 量 了 Y、Cb 
和 Cr 具有 同样 的 分 辨 京 ， 即 对 于 每 四 个 亮度 样 值 就 有 四 个 Cb 和 Cr 样 值 。4: 2:2 
采样 也 称 为 YUV2 ， 色 度 分 量 与 亮度 一 样 具 有 同样 的 垂直 分 辨 率 ， 但 水 平分 辩 率 
为 后 者 的 一 半 。 也 就 是 说 ， 对 应 水 平方 辐 的 每 四 个 亮度 样 值 有 两 个 Cb 和 两 个 Cr 
样 值 。4:2: 2 视频 通常 用 于 高 质量 颜色 青 生 。 

















eae ad en a i 


o Oooo y 
> = > O Y 样 什 
人 
@ corti 
0 © 0 0 & ae 
© © @ 
0 0 0 0 0 © 
0 © O O 6 Oo 
© © © 
O © 0 © 而 
4:2:0 采样 
@° @0 ® @ @ @ 
oo ao eeee 
@ O @ O ® @ @ @ 
@ O @ O 
4:2:2 采样 4:4:4 采样 


图 2.9 4:2:0, 4:2:2 和 4:4:4 的 采样 模式 (rats) ( [B18] 2010 Wiley) 


最 流行 的 采样 模式 是 4:2:0， 也 叫 作 YV12。Cb 和 Cr 在 水 平和 垂直 方向 上 
的 分 辩 率 都 是 Y 分 辩 率 的 一 半 ， 每 个 色差 分 量 包 括 Y 分 量 样 值 数量 的 四 分 之 
一 。4:2:0 YCbCr 视频 只 需要 4: 4:4 或 者 RGB 视频 样 值 的 一 半 ， 因 此 被 广泛 用 
于 消费 应 用 领域 诸如 视频 会 议 、 数 字 电 视 和 DVD [B18] 。 


2. 5.3 ”视频 格式 


一 种 非常 普通 的 做 法 是 ， 在 压缩 和 传输 之 前 捕获 或 转换 视频 为 中 间 格 式 的 一 
种 。 表 2. 1 示 出 了 部 分 流行 的 视频 格式 。 

帧 分 辩 率 的 选择 取决 于 具体 应 用 和 可 用 的 存储 或 传输 容量 。 例 如 ，4CIF 
适合 于 标准 清晰 度 电 视 和 DVD 视频 ; CIF 和 QCIF 则 流行 于 视频 会 议 应 用 领 
J; QCIF 或 SQCIF 适合 于 显示 分 辨 率 和 比特 率 有 限 的 移动 多 媒体 应 用 领域 。 
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SIF (Source Input Format) 实际 上 等 同 于 CIF, 但 来 自 于 MPEG-1 而 不 是 ITU 标 
准 。 在 525 行 的 NTSC 系统 上 的 SIF 分 辨 率 是 352 x240, Æ 625 行 PAL 系统 上 的 
SIF 等 同 于 CIF, 分辨 率 是 352 x 288。SIF 和 4SIF 通常 用 在 特定 的 视频 会 议 系 统 
中 [H53], 





R21 视频 帧 格式 





格 式 视频 分 辩 率 
Sub- QCIF 128 x96 
Quarter CIF ( QCIF) 176 x 144 
SIF (525) 352 x 240 
CIF/SIF (625) 352 x 288 
ASIF (525) 704 x 480 
4CIF/4SIF (625) 704 x 576 
16 CIF 1408 x 1152 
DCIF 528 x384 


2.5.4 质量 


为 了 规定 、 计 算 和 评价 的 便利 ， 有 必要 确定 呈现 给 观察 者 的 视频 图 像 的 质 
量 。 视 频 质量 本 身 是 个 主观 概念 ， 它 受到 许多 因素 的 影响 ， 因 而 获得 完全 精确 
的 质量 量度 是 很 困难 的 。 用 客观 标准 度量 视觉 质量 能 给 出 精确 的 可 重复 的 结 
果 ， 但 迄今 为 止 ， 还 没有 哪 一 个 客观 度量 体制 能 完全 地 再 生 一 个 视频 观察 者 的 主 
观 经 验 [B18], 

1. 峰值 信 噪 比 

峰值 信 咯 比 (PSNR) 是 最 为 广泛 使 用 的 客观 质量 指标 。PSNR [方程 
(2.11)] 以 对 数 来 计算 ， 取决 于 原始 图 像 和 损失 图 像 或 视频 帧 之 间 的 均 方 误差 
(MSE) 与 (2"-1)° 的 相对 值 (图 像 中 可 能 的 最 大 信号 幅 值 的 平方 , ”是 每 个 图 
像样 值 的 比特 数 ) 。 























PSNR，=10log,((2" —1)°/MSE) (2.11) 
PSNR 易于 快速 计算 ， 因 而 是 一 个 非常 流行 的 质量 指标 ， 被 广泛 用 于 比较 压缩 
和 解压 视频 图 像 的 质量 。 
2. SSIM 
结构 相似 度 (SSIM) 指标 [Q13] ( 见 附录 C) 是 一 种 度量 两 幅 图 像 之 间 相 似 
度 的 方法 。 如 果 男 一 幅 图 像 被 视 为 具有 完美 的 质量 ，SSIM 可 被 看 作 是 被 比较 图 像 
的 一 种 质量 指标 。 








2.6 BE 








本 章 基 本 上 是 第 1 章 的 延续 。 下 一 章 将 详细 描述 AVS China, 

附 言 : 本 章 主要 基于 S. M. Muniyappa 的 学 位 论文 “ 帧 内 模式 选择 复杂 度 降低 
算法 的 实现 ”( “Implementation of complexity reduction algorithm for intra mode selec- 
tion”), 2011 年 12 H, BAREM R WT BH AR. PAVE SCY DARL et A 
tit www-ee. uta. edu/dip 访问 。 点 击 课程 然后 点 击 EE5359， 再 下 拉 即 可 看 到 Theses/ 


Projects, 








第 3 章 AVS China 


摘要 : 详细 地 描述 了 中 国 的 音频 和 视频 标准 (AVS) ， 说 明了 编码 器 和 解码 器 
回 有 的 档次 、 级 别 和 功能 特性 。 该 编译 码 系 统 类 似 于 H.264/AVC (第 4 章 )， 但 选 
项 更 加 简单 ， 所 以 降低 了 实现 复杂 度 ， 而 性 能 损失 可 以 忽略 。 此 外 ， 也 呈现 了 
AVS 系统 的 细节 和 AVS China 采纳 为 IEEE 标准 的 情况 。 

关键 字 : AVS China 档次 数据 格式 AVS 编码 器 ”解码 器 编码 工具 k 
特 流 NAL 单 元 AVS-M IEEE AVS 








3.1 AVS China 


AVS (Audio Video coding Standard; 音频 视频 编码 标准 ) China 是 由 中 国 的 
AVS 工作 组 制订 的 最 新 的 数字 视频 编码 标准 ， 以 降低 因 使 用 其 他 国际 视频 编码 标 
准 如 MPEG-2、MPEG-4 和 MPEC-4 第 10 部 分 (H. 264)[ A14] 而 需要 支付 的 版 税 
费用 。AVS China 的 主要 特性 是 ， 在 技术 上 它 是 一 种 先进 的 第 二 代 信 源 编码 标准 ， 
而 且 完 全 由 中 国人 规划 和 控制 [ AS1] AVS 标准 是 一 个 高 效 的 视频 编码 器 ， 它 使 
用 了 最 新 的 视频 编码 工具 ， 主 要 瞄准 标清 (SD, Standard Definition) 和 高 清 (HD, 
High Definition) 视频 压缩 ， 旨 在 实现 与 H. 264/AVC 类 似 的 编码 效率 但 是 具有 更 低 
的 计算 复杂 度 [PC2 ] 。AVS 视频 标准 制订 的 目的 是 服务 于 广播 和 存储 媒体 应 用 如 
数字 视频 电视 、 数 字 视 频 光 盘 (DVD 和 高 清光 盘 ) 以 及 宽度 网 络 多 媒体 应 用 如 视 
频 会 议 、 视 频 点 播 、IPTV 等 。 因 为 AVS China 的 视频 编码 语法 结构 非常 类 似 与 
MPEG-2 视频 标准 ， 所 以 它 能 很 容易 地 用 在 目前 广泛 使 用 的 MPEG-2 系统 中 ， 同 时 
在 编码 效率 方面 有 明显 的 提高 [A6]。AVS 视频 编码 标准 是 AVS 工作 组 标准 化 产 
品 的 重要 组 成 部 分 。AVS- video 是 所 有 与 视频 编码 相关 部 分 的 综合 体 ， 它 的 辅助 信 
BÆ AVS 之 内 。 不 同 的 AVS 部 分 见 表 3. 1。 


表 3.1 AVS 标准 的 不 同 部 分 [A13] 


























部 分 名 BK 
1 系统 
2 视频 
3 音频 
4 一 致 性 测试 
5 参考 软件 
6 数字 版 权 管 理 











( 续 ) 
部 分 名 R 
7 移动 视频 
8 通过 IP 网 络 传输 AVS 
9 AVS 文件 格式 
10 移动 语音 和 音频 编码 


AVS China 的 第 二 部 分 ， 也 就 是 部 分 2 (视频 ) 主要 服务 于 高 清和 高 质量 的 数 
字 广 播 应 用 、 数 字 存 储 媒体 和 其 他 相关 应 用 ， 而 AVS 的 第 7 部 分 主要 服务 于 移动 
多 媒体 应 用 方面 。AVS 第 2 部 分 的 视频 编码 器 结构 非常 类 似 于 H. 264 标准 ,但 是 
它 的 复杂 度 通过 只 选择 8 x8 的 块 、 五 种 帧 内 模式 和 其 他 特征 而 得 以 降低 [67]. 

各 种 视频 编码 标准 的 逐年 发 展 如 图 3.1 所 示 。 图 3.2 也 示 出 了 AVS 档次 及 其 
应 用 。 
第 一 代 第 二 代 
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图 3.1 视频 编码 标准 的 历史 [A40] 
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图 3.2 AVS 档次 的 标准 结构 [A40] 
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3.2 AVS China 档次 和 级 别 


考虑 到 视频 应 用 的 不 同 需 求 ，AVS-video 定义 了 不 同 的 档次 ， 这 些 档 次 综合 了 
先进 的 视频 编码 工具 ， 考 虑 了 编码 效率 和 计算 复杂 度 之 间 的 平衡 问题 ， 能 服务 于 多 
种 不 同 的 应 用 。 标 准 定 义 的 基本 档次 见 表 3. 2。 

AVS- video 定义 的 4 个 不 同 档次 是 
基准 档次 ; 
基本 档次 ; 
伸展 档次 ; 

加 强 档次 。 





表 3.2 AVS China 档次 特征 [A59] 
档 次 基准 档次 基本 档次 伸展 档次 加 强 档 次 
可 用 的 颜色 
格式 
最 大 块 单元 
及 变换 尺寸 


帧 内 预测 8 x8 帧 内 预测 4 x4 帧 内 预测 8 x8 帧 内 预测 8 x8 帧 内 预测 





4:2:0, 4:2:2 4:2:0 4:0:0, 4:2:2 4:2:0, 4:2:2 





8 x8 4x4 8 x8 8 x8 








AA P 预测 和 B 预 


只 有 P 预测 ， 非 参 | | | 
测 ， 背 景 参 考 帧 ， 非 | AA P 预测 和 B 预测 


帧 间 预 测 P 预测 和 B 预测 p 
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3.2.1 AVS- video 的 基准 档次 

基准 档次 被 认为 是 计算 复杂 度 中 等 的 基础 档次 ， 它 定义 在 AVS 的 第 二 部 分 ， 
主要 服务 于 像 存 储 媒 体 和 商业 广播 这 样 的 数字 视频 应 用 领域 。 
3.2.2 AVS- video 基本 档次 

基本 档次 是 个 基础 档次 ， 定 义 在 AVS 第 7 部 分 ， 主 要 服务 于 移动 视频 应 用 。 
3.2.3 AVS- video 伸展 档次 

伸展 档次 是 定义 在 AVS 第 2 部 分 的 一 个 扩展 档次 ， 它 专注 于 视频 监控 应 用 标 
准 化 的 解决 方案 。 
3.2.4 AVS-video 加 强 档 次 

加 强 档次 定义 在 AVS 第 2 部 分 ， 主 要 服务 于 电影 压缩 的 高 密度 存储 。 

AVS- video 定义 的 多 种 档次 简 述 及 其 他 们 的 应 用 见 表 3. 3。 

档次 是 AVS 视频 标准 所 定义 的 语法 、 语 义 和 算 法 的 一 个 子 集 ， 而 级 别 则 对 视 
频 流 的 参数 加 以 限制 [A10], AVS 视频 标准 定义 了 四 个 级 别 。 


e 4:2:0 和 4:2:2 格式 的 标清 (SD) 视频 级 别 4.0 和 4.2 [A6]; 
e 4:2:0 和 4:2:2 格式 的 高 清 (HD) 视频 级 别 6.0 和 6.2 [A6]。 


表 3.3 AVS-vide 档次 应 用 [A59] 




















档 次 部 分 主要 应 用 
基准 档次 2 电视 广播 ， 高 清 电 视 
增强 档次 2 存储 媒体 [A40] 
基本 档次 7 移动 应 用 
伸展 档次 2 视频 监控 

加 强 档次 2 多 人 媒体 娱乐 


AVS 视频 定义 的 最 大 图 像 尺 寸 范 围 是 720 x 576 ~ 1920 x 1080 像素 ， 最 大 比特 
率 范 围 是 10Mbits/s 到 30Mbits/s。 

fe BOK, AVS China 进行 了 许多 改变 。 部 分 改变 如 下 : 

在 AVS 第 2 部 分 ( 见 表 3.1) ， 移 动 编码 作为 一 个 新 的 档次 包含 在 内 ， 也 叫 作 
便携 档次 。AVS 第 7 部 分 (AVS-M) 仍然 独立 存在 ,但 人 们 不 再 太 多 关注 它 。 日 
前 ， 档 次 被 称 作 组 群 。 

主 组 群 对 应 基准 档次 。 便 携 组 群 对 应 基本 档次 。 监 控 基 本 组 群 对 应 伸展 档次 。 
监控 组 群 是 监控 基本 组 群 的 一 个 新 改进 。 加 强 组 群 对 应 加 强 档次 。 广 播 组 群 是 一 个 
最 近 为 中 国电 视 广 播 新 制订 的 档次 。 
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3.3 AVS 使 用 的 数据 格式 


AVS 对 视频 数据 以 渐进 扫描 格式 进行 编码 ， 每 帧 的 各 行 被 依次 扫描 ; 而 隔行 
扫描 对 一 帧 的 奇 场 和 侦 场 进行 交 蔡 的 扫描 。 渐 进 扫描 格式 的 显著 优势 就 是 运动 估计 
得 以 有 效 工 作 。 渐 进 扫描 帧 能 以 明显 低 于 达到 相同 视觉 质量 的 隔行 编码 帧 的 比特 率 
进行 编码 ; 而且， 渐进 格式 数据 的 运动 补偿 编码 复杂 度 也 明显 低 于 隔行 数据 的 编 
人 码 ， 隔 行 数据 相当 于 AVS 编码 中 复杂 上 度 降低 的 一 个 有 意义 分 量 [A6]。 不 过 ，AVS 
对 于 隔行 扫描 格式 也 提供 了 编码 工具 。 


3.3.1 AVS 视频 分 层 结构 


AVS 建立 在 表示 视频 数据 的 分 层 结 构 上 ， 如 图 3. 3 所 示 。 

1. 序列 

序列 层 包 括 多 组 连续 视频 帧 ， 提 供 了 一 个 编码 视频 的 入 口 点 ， 包 括 一 组 强制 和 
可 选 的 系统 参数 。 强 制 系统 参数 对 于 初始 化 解码 器 系统 是 必需 的 ， 而 可 选 系统 参数 
则 用 于 其 他 的 系统 设置 ， 由 网 络 提供 方 自行 决定 。 可 选 的 用 户 数据 也 可 放 在 序列 首 
部 进行 发 送 。 如 图 3. 4 所 示 为 视频 序列 的 一 个 例子 。 














DOLL 
e 重复 序列 首部 
RIR 6 个 块 : 47 RE ERA EE 
大 Pik: 4 个 亮度 块 和 3 个 色 度 块 。 结 尾 序列 首部 
图 3.3 AVS 分 层 的 数据 结构 图 3.4 视频 序列 
2. 图 像 


图 像 层 提供 了 视频 数据 的 编码 信息 ， 也 包括 一 个 带 有 强制 和 可 选 参数 的 首部 ， 
以 及 可 选 的 用 户 数 据 。AVS 定义 的 三 种 图 像 类 型 如 图 3.5 所 示 。 
。 内 部 编码 帧 (1 Wt) ; 
o 前 向 解码 帧 (P Wi); 
预测 帧 (P) 一 一 至 多 两 个 参考 帧 (P BI); 
双 问 解码 帧 (B 帧 ) ; 
内 插 帧 (B) 一 一 两 个 参考 帧 (I 或 P 或 都 有 ) 。 











图 3.5 I, PY B 帧 格式 





在 一 个 视频 标准 里 规定 有 三 种 不 同 顺序 的 帧 [B18 ] : 

© 解码 顺序 是 指 从 比特 流 中 解码 图 像 的 顺序 ; 

9 显示 顺序 是 指 图 像 显示 的 顺序 ; 

© 参考 顺序 是 指 预测 其 他 帧 的 参考 帧 安排 顺序 。 

在 AVS- video 标准 中 ， 如 果 比 特 流 不 包括 编码 的 B 帧 ， 那 么 图 像 的 解码 顺序 与 
显示 顺序 相同 ; 但 是 当 有 B 帧 的 时 候 ， 解 码 顺序 则 不 同 于 显示 顺序 ， 解 码 图 像 应 
该 按照 下 列 规则 重新 排序 [A12]: 

。 如 果 当 前 解码 帧 是 一 个 B 帧 ， 那 么 当前 解码 帧 直接 输出 显示 ; 

。 如 果 当 前 解码 帧 是 一 个 工 帧 或 P 帧 ， 那 么 就 传输 并 显示 以 前 解码 的 工 帆 或 了 
帧 ， 如 果 存 在 的 话 ; 否则 不 传输 任何 图 像 ; 

。 当 所 有 图 像 都 已 被 解码 ， 如 果 缓 冲 区 仍 有 解码 的 图 像 ， 就 把 它们 传输 到 显 
7S Fit o 

AVS 视频 标准 帧 处 理 过 程 的 图 形 表示 如 图 3. 6 所 示 。 











编码 器 输入 顺序 : 
1234567 8 9 10 11 12 13 
I BBPBBPBB I B B P 


编码 和 解码 顺序 : 
123 45 67 8 9 10 11 12 13 
I PBBPBBI BB P B B 


编码 器 的 输出 顺序 (显示 顺序 ): 
123456789 10 11 12 13 
I BBPBBPBB IB B P 


图 3.6 AVS 视频 标准 的 帧 处 理 [A2] 
WH (GOP, Group of pictures) 规定 了 内 部 编码 帧 和 帧 间 编 码 帧 安排 的 顺序 ， 


它 可 以 包含 下 列 图 像 类 型 . 
e 工 帆 〈 内 部 编码 帧 ) : 它 是 一 幅 独 立 于 其 他 图 像 类 型 的 参考 图 像 。 每 个 GOP 
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以 工 帆 开始 。 

e P (预测 编码 帧 ) : 它 包 含 来 自前 面 1 或 P 帧 的 运动 补偿 差分 信息 。 

e BiH (MMM aS). 它 包含 来 自前 面 和 后 面 的 1 或 P 帧 的 运动 补偿 差 
分 信息 。 

图 3.6 中 帧 的 重 排序 可 以 解释 如 下 。 

例如 ， 在 连续 的 I 和 P 帧 之 间 有 两 个 B 帧 ,在 连续 的 P 帧 之 间 也 有 两 个 B 帧 。 
帧 “1T” 被 帧 “4P” 用 作 预 测 。 帧 “4P 和 “”11” 都 用 于 预测 “2B” 和 “3B?’。 
因此 ， 帧 的 解码 顺序 为 17， *1P’, ‘2B’ “3B，， 显 示 顺 序 为 “1T  ， ‘2B’, 
‘3B’, ‘4P’, 

3. DA 

在 发 生 比 特 传 输 错 误 的 情况 下 ， 分 片 结构 提供 重新 同步 的 最 底层 机 制 。 分 片 包 
括 数量 可 变 的 宏 块 。 

4. RIR 

一 个 宏 块 表示 一 个 16 x16 的 图 像 区 域 ， 包 括 亮度 分 量 (Y) 和 色 度 分 量 (Cb 
和 Cr) 像素 。 总 共有 三 种 Y，Cb 和 Cr 的 采样 模式 ，AVS 视频 标准 支持 其 中 的 两 
种 ,它们 是 4:2:0 和 4:2:2 格式 [A6]。 其 中 的 数字 指出 水 平方 向 上 每 个 分 量 的 相 
对 采样 率 。4: 2:2 格式 表示 水 平方 向 上 对 应 每 4 个 亮度 样 值 有 2 个 Cb 和 Cr HHR, 
而 在 4: 2: 0 的 采样 格式 中 ，Cb 和 Cr BAA Y 的 垂直 和 水 平分 辨 率 的 一 半 。 宏 块 格 
式 的 图 形 表 示 如 图 3.7 和 图 3. 8 所 示 。 

在 图 3.7 所 示 的 4:2:0 采样 格式 中 ， 每 个 色 度 分 量 ， 即 Cr (8 x8) 和 Cb (8 x 8) 
分 量 的 垂直 和 水 平分 辨 率 是 Y (16 x16) 分 量 的 一 半 。 

在 图 3. 8 所 示 的 4:2:2 采样 格式 中 ， 对 于 水 平方 向 上 每 4 个 亮度 样 值 ， 就 有 
2 个 Cb 和 Cr 的 样 值 。 























图 3.7 4:2:0 安 块 格式 图 3.8 4:2:2 Rist 


5. 块 
块 是 最 小 的 编码 单元 ， 它 包含 预测 误差 的 变换 系数 数据 。 


3.4 AVS 视频 编码 器 


AVS 视频 的 基本 编码 过 程 如 图 3.9 所 示 。 








编码 
比特 流 











预测 编码 





帧 内 预测 











编码 帧 
缓冲 
帧 间 预 测 


宏 块 首部 信息 


图 3.9 AVS 视频 编码 此 的 框图 [A59] (2009 Elsevier) 

















类 似 于 以 往 的 视频 编码 标准 如 MPEG-1、MPEG-2 和 H.264 [B18], AVS 第 2 
部 分 也 使 用 了 基于 混合 块 的 视频 压缩 技术 如 空间 和 时 间 预 测 、 变 换 、 量 化 、 箭 编码 
和 去 块 效 应 滤波 器 来 获得 编码 效率 和 复杂 度 之 间 较 好 的 平衡 [PC2 ] 。 通 过 运动 补 
偿 DPCM 编码 去 除 时 间 宛 余 ; 首先 通过 空间 预测 ， 最 后 由 变换 编码 来 去 除 残 差 的 
空间 元 余 ; I i ARBEIT ITE 
3.4.1 编码 过 程 概述 

一 个 视频 包括 一 个 帧 的 序列 (YUV) ， 每 一 帧 都 要 分 成 若干 叫 作 宏 块 的 矩形 
块 ， 宏 块 包括 固定 大 小 的 16 x 16 亮度 分 量 及 其 相应 的 色 度 分 量 。 在 每 个 宏 块 上 进 
行 预测 编码 ， 预 测 编码 可 被 分 为 或 者 是 帧 内 编码 或 者 是 帧 间 编 码 两 类 。 然 后 ， 对 相 
应 于 预测 残 差 的 宏 块 进行 变换 ， 残 差 是 当前 网 像 原始 像素 值 和 和 预测 像素 值 之 间 的 
差 值 。 在 进行 箭 编码 之 前 ， 变 换 系 数 要 进一步 被 量化 和 扫描 (Z 形 ) ( 见 后 面 的 
图 3.12)， 最 终 焙 编码 信息 被 转换 成 一 个 比特 流 [ A59 ] 。 
3.4.2 AVS 视频 编码 器 用 到 的 编码 工具 


AVS 视频 编码 带 所 用 的 各 种 编码 工具 的 功能 描述 如 下 。 
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1. 变换 

与 H. 264 和 MPEG-2 不 同 ，AVS 使 用 的 是 可 分 离 整数 精度 的 8 x 8 离散 余弦 变 
换 。 该 变换 与 量化 结合 起 来 设计 来 最 小 化 解码 需 的 实现 复杂 度 ， 该 变换 叫 作 预 缩放 
的 整数 余弦 变换 技术 (PIT) [I13]。 图 3.9 和 图 3. 10 分 别 示 出 了 H. 264 所 用 的 传 
统 ICT 方案 和 AVS 所 用 的 PIT 方案 的 框图 ( 见 图 3. 11) 。 











图 3.11 AVS- video 使 用 的 PIT 方案 框图 [113] (2005 IEEE) 


一 个 8 x8 逆 变 换算 阵 如 下 : 
8 10 10 9 8 6 4 2 
8 9 4 -2 -8 -10 -10 -6 
8 6 -4 -10 -8 2 10 9 
8 2 -10 -6 8 -9 -4 -10 
[H] = (3.1) 
8 -2 -10 6 8 9 -4 10 
8 -6 -4 10 -8 -2 10 -9 
8 -9 4 2 -8 10 -10 6 
8 -10 10 -9 8 -6 4 -2 


假定 [Y] 是 一 个 变换 系数 和 矩阵， 逆 变 换 共 包括 如 下 4 个 步骤 [A6]: 
A ]=[Y][H]", 其 中 [W] 是 1-D 逆 变换 的 结果 。 
B.[ 瑟 ] =((W,] +2)>3, HÈRE [W] 的 每 个 元 素 除 以 8 并 取 整 。 
C. [W] =[H][W,], HA [m] 是 2-D 逆 变换 之 后 的 结果 。 
D 
2. 





[W] =([W,] +2°)>7. 
量化 与 扫描 

对 于 渐进 数据 进行 Z 形 ( 见 图 3.12) 扫描 而 对 于 交错 数据 进行 隔行 扫描 ， 这 
样 就 把 由 变换 编码 生成 的 2D 系数 要 转化 成 1D 序列 以 进行 量化 和 编码 。 图 3. 12 所 
示 为 用 于 渐进 数据 的 Z 形 扫描 。 

AVS 采纳 了 目 适 应 均匀 量化 器 对 变换 系数 进行 量化 。AVS- video 不 提供 改变 比 
特 率 的 直接 选项 ， 因 为 可 以 改变 量化 带 的 步 长 来 实现 率 控 制 ， 率 控制 在 避免 缓冲 洲 
出 的 恒定 比特 率 工 作 中 是 很 有 用 的 。 量 化 参数 对 于 一 整 幅 图 像 或 分 片 可 以 是 固定 
的 ， 或 者 在 每 个 宏 块 上 可 以 有 差别 地 更 新 。 














增加 的 垂直 频率 


SRLK 


Sec 
SSS 








3 
7 
|7 

Lo 
7 
f 
7 


SEIE IAE eps 
> 增加 的 水 平 频率 
图 3. 12 AVS 中 用 于 渐进 数据 的 Z 形 扫 质 





3. Karat 

Wei Zia ES E A Bail As ig FA ak DCT 系数 的 统计 相关 性 方面 发 挥 着 重要 的 作用 。 
AVS 使 用 了 一 个 基于 上 下 文 的 2D- VLC (C2DVLC) Wi ants, C2DVLC 用 到 多 个 
简单 指数 Golomb 码 的 VLC 表 ， 利 用 基于 上 下 文 的 自 适 应 多 表 编 码 来 开发 每 个 块 
DCT 系数 的 统计 相关 性 。 这 种 相关 性 的 出 现 是 因为 ， 随 着 DCT 子 带 频率 的 增 大 ， 
非 零 系 数 的 幅 值 减 小 而 连续 的 零 系 数 游 程 变 长 。 使 用 指数 Golomb 码 对 零 游 程 和 非 
零 系 数 进 行 编码 可 获得 较 高 的 编码 效率 。 就 编码 效率 而 言 ， 与 H. 264/AVC 所 用 的 
基于 上 下 文 的 自 适 应 变 长 码 (CAVLC) 相 比 ，C2DVLC 具有 类 似 的 编码 效率 但 计 
算 复杂 度 更 低 [A23 ] 。 

4. 去 块 效应 滤波 器 

去 块 效应 滤波 央 在 运动 补偿 和 残 差 编码 之 后 作用 于 宏 块 通过 平滑 宏 块 周围 的 边 
沿 来 改善 视觉 质量 和 预测 性 能 。 环 路 去 块 效 应 滤波 器 用 来 降低 块 效应 ， 因 而 提高 视 
觉 质量 。AVS-video 定义 了 几 个 去 块 效 应 方法 ， 这 些 方法 随 滤波 器 的 强度 而 有 所 不 
同 ， 滤 波 器 强度 取决 于 相 邻 块 的 编码 模式 、 量 化 步 长 和 块 间 亮 度 梯度 的 陡 度 
[A59], 

。 默认 的 去 块 效应 滤波 器 运行 在 8 x8 的 边界 上 (ULI 3. 13) ; 

。 简化 的 去 块 效应 滤波 器 运行 在 4x4 的 边界 上 ; 

© 像素 级 环 路 去 块 效应 滤波 需 在 像素 级 别 而 不 是 在 边界 级 别 上 决定 了 边界 强 
FE (BS: boundary strength) 。 

默认 的 去 块 效 应 滤波 器 运行 在 8 x8 的 块 边界 上 。 首 先 ， 对 垂直 边界 进行 水 平 
滤波 ， 然 后 对 水 平 边 界 进 行 垂 直 滤 波 。 以 4:2:0 图 像 为 例 ， 宏 块 边 界 需 要 按 
图 3. 13 所 示 的 实 线 〈 垂 直 边 界 ) 和 虚线 (水平 边界 ) 进行 滤波 ， 其 中 每 个 方 框 代 
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表 一 个 8 x8 的 块 ， 点 线 表 示 后 面 要 与 相 邻 宏 块 处 理 的 边界 。 参 照 预 测 类 型 或 临近 
块 边界 的 两 个 相 邻 块 的 参考 序号 ， 在 默认 的 去 块 效 应 滤波 融 中 设计 了 三 级 BS。 在 
滤波 过 程 中 边界 每 一 侧 的 三 个 像素 〈 见 图 3. 14) 用 来 调整 边界 的 像素 ， 如 下 所 示 。 
如 果 临 近 当 前 块 边界 的 两 个 块 至 少 有 一 个 是 内 部 编码 宏 块 ， 那 么 BS 设置 为 2。 否 
则 ， 如 果 当 前 块 边界 的 两 个 相 邻 块 具 有 相同 的 参考 帧 而 且 它 们 的 运动 矢量 之 差 小 于 一 
个 像素 ，BS 设置 为 0。 否则 ，BS 设置 为 1。 当 处 理 一 个 特定 块 边界 时 ， 对 于 BS =1 
和 2， 进 行 滤波 过 程 ; 对 于 BS =0， 不 使 用 滤波 右 。 





Bspoo BsHol 
Bsyoo Bgy io 
BsHio BsHIl E Bsyoo  Bsnoi 
Bsvoo 
Bsvol Bsvll : | 8 
Bsvol 
8 
亮度 宏 块 边缘 色 度 宏 块 边缘 


图 3.13 ”要 滤波 的 一 个 宏 块 的 块 边沿 (4:2:0 格式 )[A2 | 


Haan 
图 3.14 


5. 模式 判决 

模式 判决 单元 为 图 像 和 宏 块 选择 最 好 的 运动 补偿 模式 。 率 失真 优化 用 来 提高 模 
式 判 决 的 效率 。 

6. 帧 内 预测 

帧 内 预测 是 种 预测 方法 ， 用 来 利用 当前 帧 的 空间 相关 性 。 它 使 用 当前 帧 的 已 解 
人 码 信 息 作 为 预测 的 参考 来 消除 同一 帧 像素 间 的 空间 相关 性 。AVS 第 2 部 分 所 用 到 的 
8 x8 内 部 预测 方法 允许 针对 亮度 分 量 的 五 种 预测 模式 ， 即 DC (模式 2) 、 水 平 
(模式 1), HEE (模式 0)、 左 下 (模式 3) 和 右 下 (模式 4)， 和 针对 色 度 分 量 的 
四 种 预测 模式 ， 即 DC、 水平、 垂直 和 平面 。 四 个 8 x8 亮度 块 的 每 一 个 可 通过 选择 
五 个 不 同 预 测 模式 中 最 好 者 进行 预测 。 在 使 用 DC、 对 角 左 下 和 对 角 右 下 模式 之 前 ， 
要 用 一 个 三 抽 头 低 通 滤波 器 (1/4, 2/4, 1/74) 作用 于 样 值 ， 这 些 样 值 将 被 用 作 预 
测 的 参考 [A59，PC2] 。( 见 图 3.15 ~ 图 3.20)。 




















图 3. 15 








方向 和 参考 像素 (2005 SPIE) 


亮度 分 量 8 x8 帧 内 预测 所 用 的 


图 3. 18 


模式 0 





图 3.16 垂直 模式 (模式 0) 
(2005 SPIE) 


a | | | | 
eee 











图 3. 19 对 角 左 下 模式 (模式 3)[ Al4] (2005 SPIE) 
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图 3.20 ”对 角 右 下 模式 (模式 4)[Al14] (2005 SPIE) 





。 FERRNA (RA O0) 中 ， 上 面 的 样 值 由 垂直 外 插 得 到 ; 

。 在 水 平 模式 (模式 1) P, 左边 的 样 值 由 水 平 外 插 得 到 ，; 

。 在 直流 模式 (模式 2) 中 ， 所 有 的 样 值 由 他 们 对 应 的 左边 和 上 面 的 样 值 均 
值 来 预测 ; 

。 在 对 角 左 下 模式 (模式 3) 中 ， 样 值 在 左下 和 右上 之 间 的 45° 角 度 上 内 插 
得 到 ; 

。 在 对 角 右 下 模式 (模式 4) 中 ,， 样 值 在 从 下 到 右 的 45" 角 度 上 外 插 得 到 。 

7. 帧 间 预 测 

帧 间 预 测 是 又 一 种 预测 方法 ， 它 开发 了 不 同 帧 间 的 时 间 相 关 性 。 帧 间 预 测 涉 及 
两 个 重要 的 概念 ， 叫 作 运动 估 计 (ME, Motion Estimation) 和 运动 补偿 (MC, Mo- 
tion Compensation ) 。 

首先 将 一 个 帧 间 编 码 帧 分 为 若干 宏 块 。 编 码 需 在 先前 已 编码 帧 〈 参 考 帧 ) 里 
搜索 一 个 类 似 的 块 ， 而 不 是 直接 对 原始 像素 值 进行 编码 。 如 果 编 码 硕 成 功 地 找到 了 
匹配 块 ， 那 么 当前 宏 块 就 用 一 个 指向 参考 帧 中 匹配 宏 块 位 置 的 运动 矢量 来 编码 。 这 
个 确定 运动 矢量 的 过 程 叫 作 运动 估计 。 被 选 的 宏 块 区 域 就 是 当前 宏 块 的 预测 值 ， 从 
当前 宏 块 减 去 该 预测 值 ， 形 成 一 个 残 差 块 。 形 成 残 差 块 的 过 程 叫 作 运 动 补偿 。 残 差 
块 和 差分 运动 矢量 一 起 被 编码 和 传输 。 解 码 带 接收 运动 矢量 并 用 它们 生成 预测 区 
域 ， 预 测 区 域 进一步 共 加 到 残 差 块 上 重建 成 原始 的 宏 块 ( 见 图 3.21)。 




















图 3.21 帧 间 预 测 





AVS 第 2 部 分 在 帧 间 预 测 中 文 持 可 变 块 大 小 的 运动 补偿 ， 块 大 小 可 以 是 16 x 
16 或 8 x8 以 更 好 地 利用 时 间 相 关 性 。AVS 第 2 部 分 所 用 的 变 块 大 小 运动 补偿 如 
图 3. 22 所 示 。 


16X 16 16X8 8x16 8x8 


E L EE 


图 3.22 AVS 第 2 部 分 帧 间 预 测 所 文 持 的 块 大 小 [PC2] (2006 Springer) 


AVS 第 2 部 分 文 持 1/4 样 值 精度 的 运动 补偿 。AVS 第 2 部 分 使 用 了 1/4 像素 的 
二 维 可 分 离 内 搬 法 ， 叫 作 两 步 四 抽 头 内 捅 (TSFT, Two Steps Four Taps Interpola- 
tion)[ PC2 ] 。 分 数 样 值 内 搬 用 在 一 个 对 象 在 帧 间 移 动 了 非 整 数 个 像素 的 情况 ， 如 
图 3. 23 所 示 。 
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13.23 AVS 第 2 部 分 所 用 的 1/4 像素 精度 的 样 值 (2005 SPIE) 

通过 在 整数 像素 位 置 上 的 样 值 使 用 一 个 四 抽 头 三 次 卷 积 内 插 滤 波 器 
| 抽 头 值 为 -去 ， 言 ， 读 ，- 井 |， 内 揪 得 到 半 像 素 位 置 b，h 上 的 样 值 ， 位 置 j 上 
的 值 通过 在 半 像素 位 置 上 进行 内 插 获 得 。1/4 像素 位 置 a, c, d, f, i, k,n 和 gq 
上 的 样 值 由 四 抽 头 三 次 样 条 尖 波 器 | 抽 头 值 为 二， 让， 二 ,十 | 在 整数 和 半 像 素 位 
置 上 内 插 得 到 。1/4 像素 位 置 。，g，p 和 + 上 的 样 值 由 双 线性 滤波 器 在 半 像 素 位 置 ; 
和 整数 像素 位 置 即 D, E,，H 和 TI 上 的 值 内 搬 得 到 「PC2 ] 。 

AVS 第 2 部 分 也 支持 多 参考 帧 对 P 和 B 帧 进行 运动 补偿 ， 但 是 或 了 帧 所 用 
的 参考 帧 数 限制 为 2 以 降低 存储 需求 和 计算 复杂 度 。P 帧 至 多 使 用 两 个 前 面 的 帧 进 
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行 帧 间 预 测 ， 而 B 帧 至 多 允许 不 超过 一 个 前 向 帧 和 一 个 后 向 帧 用 于 帧 间 预 测 
LPC2]。 


3.5 AVS 视频 解码 器 


AVS 视频 解码 需 的 框图 如 图 3. 24 所 示 。 
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图 3.24 AVS 视频 解码 器 [A31] (2006 IEEE) 


AVS 解码 融 从 存储 媒体 或 传输 介质 中 接收 基本 的 压缩 视频 流 作 为 其 输入 并 将 
其 存储 在 一 个 速率 缓冲 般 中 ， 数 据 以 每 个 安 块 和 帧 所 需 的 速率 从 该 缓冲 融 中 该 取出 
来 。 比 特 流 解析 做 紧 随 其 后 ， 将 量化 参数 、 运 动 天 量 和 其 他 边 信息 从 编码 数据 中 分 
离 出 来 。 该 数据 再 经 过 VLD 信 解 码 货 提取 出 首部 信息 和 分 片 数 据 以 及 运动 矢量 。 
然后 ， 该 信号 有 逆 量 化 融和 逆 DCT 进行 解码 以 重建 预测 误差 或 者 编码 数据 。 运 动 
矢量 有 运动 补偿 单元 解码 来 生成 当前 帧 的 预测 帧 ， 该 预测 值 进一步 加 到 预测 误差 上 
来 生成 输出 信号 。 


























3.6 AVS 视频 比特 流 


AVS 视频 比特 流 所 用 的 部 分 语法 和 语义 解释 如 下 。 
3.6.1 起 始 码 


起 始 码 是 用 在 AVS 视频 流 中 的 一 种 特殊 的 比特 模式 。 每 个 起 始 码 包括 一 个 起 
始 码 前 级 和 一 个 起 始 码 值 。 起 始 人 码 前 级 是 一 个 23 个 零 比特 后 接 一 个 值 为 1 的 比特 ， 
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即 比特 字符 串 “0000 0000 0000 0000 0000 0001” 或 “0x000001”， 且 所 有 的 起 始 码 
按 字 市 对 齐 。 在 C/C++/Java 编程 语言 中 ， 十 六 进 制 数 冠 以 ox。 


3.6.2 ”起 始 码 值 


每 个 起 始 码 前 级 后 接 一 个 起 始 码 值 ， 是 一 个 指明 起 始 码 类 型 的 8 比特 整数 。 表 
3.4 描述 了 AVS 视频 比特 流 用 到 的 各 种 起 始 码 类 型 及 其 值 。 

1. 视频 编辑 码 

使 用 的 比特 字符 串 是 “0x000001B7”。 该 语法 意思 是 ， 对 于 紧 跟 一 个 工 帆 的 连 
Ze P 帧 或 B 帧 可 能 有 漏 掉 的 参考 帧 ， 而 且 这 个 P 或 B 帧 不 能 被 直接 编码 。 

2. 视频 序列 终止 码 

字符 串 是 “0x000001B1”。 该 语法 指明 视频 序列 的 结尾 。 

3. 视频 序列 起 始 码 

字符 串 是 “0x000001B0”， 该 语法 指明 一 个 视频 序列 的 开始 。 

表 3.4 AVS 使 用 的 起 始 码 类 型 和 起 始 码 值 [A2 ] 























起 始 码 类 型 起 始 码 值 (十 六 进 制 数 ) 

分 片 起 始 码 (1、P 或 B) 00 ~ AF 
视频 序列 起 始 码 BO 
视频 序列 终止 码 B1 
用 户 数据 起 始 码 B2 
I 帧 起 始 码 B3 
保留 B4 
扩展 起 始 码 B5 
pb 帧 起 始 码 B6 
视频 编辑 码 B7 
保留 B8 

系统 起 始 码 B9 ~ FF 


4. 扩展 起 始 码 

比特 串 为 “0x000001B5”， 指 明 扩 展 的 开始 。 

5. 用 户 数据 起 始 码 

比特 串 为 “0x000001B2”， 指 明 用 户 数据 的 开始 。 用 户 数据 被 连续 存储 直到 下 
一 个 起 始 码 。 

6. 工 帆 起 始 码 

比特 串 为 “0x000001B3”， 该 语法 是 指明 工 帆 的 开始 。 

7. PB 帧 起 始 码 

比特 串 为 “0x000001B6”， 该 语法 是 指明 了 或 了 B 帧 的 起 始 码 。 
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8. 分 片 起 始 码 

比特 串 包括 总 共 32bit， 就 像 其 他 起 始 码 一 样 。 前 24bit 的 值 为 “0x000001”， 
后 8bit 的 范围 从 0x00 到 0xAF， 是 的 分 片 垂直 位 置 。 分 片 垂 直 范 围 给 出 宏 块 单元 中 
的 分 片 里 第 一 个 宏 块 的 垂直 位 置 。 


3.6.3 ” 帧 编码 类 型 


用 于 AVS 视频 比特 流 的 男 一 个 重要 的 语法 元 素 是 图 像 编 码 类 型 。 该 语法 是 个 
2bit 的 无 符号 数 ， 规 定 了 图 像 编码 的 类 型 。 语 法 结构 见 表 3.5 所 示 。 
表 3.5 PB 帧 的 编码 类 型 
































图 像 编 码 类 型 编码 类 型 
00 禁用 
01 前 向 帧 间 预 测 (P) 
02 双向 帧 间 预 测 (B) 
03 保留 


3.7 AVS 视频 流 的 NAL 单元 


NAL (network abstraction layer) 单元 代表 网 络 抽象 层 单元 。 它 是 一 种 信息 分 包 
层 类 型 ， 给 编码 的 视频 比特 流 加 上 某 种 前 级 。 设 计 NAL 单元 的 主要 目的 是 为 视频 
数据 的 传输 提供 一 种 友好 的 网 络 环境 。 它 主要 人 处理 视频 相关 的 应 用 诸如 视频 电话 、 
视频 存储 、 广 播 和 流 媒 体 应 用 ，IPTV 等 。H. 264/AVC 标准 [H3] 定义 了 NAL 单 
元 的 语法 但 AVS 标准 第 2 部 分 没有 为 NAL 单元 定义 任何 语法 格式 。 来 自 AVS 编码 
融 的 编 但 比特 流 是 一 种 原始 格式 的 比特 流 ， 因 而 它 在 网 络 传送 之 前 需要 转换 为 
NAL 单元 。 


3.7.1 AVS 视频 流 NAL 单元 的 映射 
NAL 单元 定义 的 基本 语法 如 图 3.25 所 示 。 


= 3 


8bit 的 首部 





图 3.25 NAL 单元 语法 


具有 NAL 单元 的 AVS 视频 流 映 射程 序 把 在 AVS 第 2 部 分 视频 比特 流 中 每 个 起 
始 码 前 级 “0x000001” 之 间 的 数据 映射 到 一 个 NAL 单元 (包括 起 始 码 值 但 不 包括 
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PAA) 中 去 ， 然 后 在 起 始 码 值 之 前 添加 一 个 一 字 节 的 NAL 单元 。 
3.7.2 NAL 单元 首部 描述 
NAL 单元 首部 如 图 3. 26 所 描述 。 


1 比特 2 比特 5 比特 
forbidden_zero_bit nal_ref idc nal_unit_type 





8 比特 首部 
图 3.26 NAL 单 元 首部 描述 


按照 3.7. 1 部 分 所 定义 的 程序 ， 视 频 流 映射 到 NAL 单元 流 中 [H3]。 位 于 每 
两 个 连续 NAL 首部 之 间 的 数据 被 认为 是 RBSP 字 节 。 用 于 NAL 单元 首部 的 语法 和 
语义 如 下 所 述 。 

1. 禁用 的 零 比 特 或 禁用 比特 

其 值 应 该 总 是 “0”. 

2. nal_ref_idc 或 NAL 参考 ID 

NAL 参考 ID 是 一 个 2bit 的 无 符号 整数 。 非 零 值 表明 这 个 NAL 单元 包含 的 数据 
是 序列 首部 或 参考 帧 数据 ; 反之 ， 零 值 表明 该 NAL 单元 包含 的 数据 不 是 参考 帧 数 
据 。I 帧 的 Nal_ref_ide 值 不 应 该 是 去 。 基 于 起 始 码 类 型 (最 大 的 2 比特 优先 级 值 
是 “1”， 最 小 值 是 “00”) Nal_ref_ide 指明 了 NAL 单元 承载 的 数据 类 型 优先 级 。 
K 3.6 中 示 出 了 基于 起 始 码 类 型 指定 在 NAL 单元 首部 中 的 nal_ref_ide 值 。 


表 3.6 基于 起 始 码 值 的 Nal_ref_ide (优先 级 ) 值 














起 始 码 类 型 Nal_ref_idc 值 (2bit) 
序列 首部 11 
I 帧 首部 11 
I 帧 的 分 片 数 据 11 
P 帧 的 首部 10 
P 帧 的 分 片 数据 10 
B 帧 的 首部 01 
B 帧 的 分 片 数据 01 
视频 扩展 起 始 码 00 
用 户 数 据 起 始 码 00 
视频 编辑 起 始 码 00 














3. nal_unit_type 或 NAL 单元 类 型 
NAL 单元 类 型 是 一 个 Shit 的 无 符号 整数 ， 因 而 允许 有 32 种 NAL 单元 类 型 。 
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Nal_unit_type 按照 所 跟随 的 起 始 码 值 和 /或 首部 中 包含 的 信息 定义 了 RBSP ( 有效 
载 何 ) 数据 结构 的 类 型 。 表 3.7 按照 起 始 码 值 示 出 了 不 同 NAL 单元 类 型 。 
表 3.7 按照 起 始 码 值 和 /或 帧 编码 类 型 划分 的 NAL 单元 类 型 






















































































Nal_unit_type NAL 类 型 填充 原 
0 保留 
1 序列 首部 起 始 码 值 是 BO 
2 视频 扩展 起 始 码 值 是 B5 
3 用 户 数 据 起 始 码 值 是 B2 
4 视频 编辑 起 始 码 值 是 B7 
5 I 帧 图 像 起 始 码 值 是 B3 
6 P 帧 图 像 首部 起 始 码 值 是 B6， 图 像 首 部 的 编码 模式 是 01 
7 B 帧 图 像 首部 起 始 码 值 是 B6， 图 像 首 部 的 编码 模式 是 10 
8 I ota 起 始 码 值 是 00 ~ AF， 所 属 图 像 的 图 像 首部 的 编码 模式 是 B3 
9 P 帧 分 片 起 始 码 值 是 00 ~ AF， 所 属 图 像 的 图 像 首部 起 始 码 值 是 B6， 图 
像 首 部 里 的 编码 模式 是 01， 
10 B 帧 分 片 起 始 码 值 是 00 ~ AF， 所 属 图 像 的 图 像 首 部 起 始 码 值 是 B6， 图 
像 首部 里 的 编码 模式 是 01， 
11 ~23 保留 
24 ~31 未 定义 


4. RBSP 字 节 

RBSP 字 市 用 于 有 效 载 丛 数 据 字 节 的 对 齐 ， 这 些 数据 包括 起 始 码 值 但 不 包括 起 
始 码 前 绥 。 

5. NAL 单元 定 界 符 

每 个 NAL 单元 之 后 会 加 上 一 个 4 字 市 的 NAL 单元 定 界 符 序 列 。 其 值 是 
“0000 0000 0000 0000 0000 0000 0000 0001” 或 “0x000001”( 译 者 认为 是 
0x00000001) 。 加 入 NAL 单元 定 界 符 只 是 辅助 确定 NAL 单元 的 起 始 位 置 。 在 解码 
过 程 中 定 界 符 就 被 丢弃 。 

只 有 当 AVS 第 2 部 分 视频 比特 流 以 这 种 格式 完成 到 NAL 单元 流 的 映射 ， 视 频 
比特 流 才 能 用 来 在 网 络 上 传输 。 在 接收 到 NAL 单元 流 之 后 ， 为 了 解码 ，NAL 单元 
首部 和 NAL 单元 定 界 符 要 被 丢弃 并 代 之 以 值 为 “0x000001” 的 起 始 人 码 前 级 ， 把 
NAL 单元 流转 换 回 AVS 第 2 部 分 视频 的 原始 比特 流 。 








3.8 AVS-M 简介 (AVS 第 7 部 分 ) 


AVS- M 是 中 国 音频 视频 编码 标准 (AVS) 工作 组 制定 的 系列 标准 的 第 七 部 分 ， 
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重点 服务 于 计算 能 力 和 功 耗 有 限 的 移动 系统 及 设备 的 视频 编码 。AVS- M 标准 能 够 
涵盖 广 沁 的 应 用 范围 ， 包 括 移动 多 媒体 广播 、IP (网 际 协议 ) 多 媒体 系统 (MS), 
多 媒体 邮件 、 分 组 网 络 上 的 多 媒体 业务 、 视 频 电 话 和 视频 监控 。 

在 此 标准 里 ,使 用 了 大 量 的 技术 来 实现 高 效 的 压缩 ， 包 括 帧 间 预 测 、 帧 内 预 
测 、 变 换 、 量 化 、 燃 编码 等 。 帧 则 编码 利用 基于 块 帧 间 预 测 中 的 运动 矢量 来 开发 相 
邻 帧 间 的 时 间 统 计 相 关 性 。 帧 内 编码 利用 各 种 空间 预测 模式 来 开发 一 个 单 帧 内 源 信 
号 的 空间 统计 相关 性 。 然 后 ， 利 用 一 个 变换 在 量化 之 前 去 除 变换 块 内 的 空间 相关 ， 
将 预测 残 差 进一步 压缩 。 这 样 就 产生 了 一 个 不 可 逆 的 过 程 ， 该 过 程 一 般 会 丢弃 那些 
不 重要 的 视觉 信息 ， 同 时 形成 了 源 样 值 的 紧密 近似 值 。 最 后 ， 运 动 撩 量 或 帧 内 预测 
模式 与 量化 系数 进行 复 用 并 进行 信 编 码 。 


3. 8.1 AVS-M 的 数据 结构 


AVS- M 具有 两 种 比特 流 格 式 : PIA (NAL) 和 单元 流 格式 或 字 闻 流 格 
式 。NAL 单元 流 包括 一 个 叫 作 NAL 单元 的 语法 结构 序列 。 字 市 流 格式 可 由 NAL 单 
元 流 构 造 ，NAL 单元 流 包括 按照 解码 顺序 排列 的 NAL 单元 序列 。 每 个 NAL 单元 以 
起 始 码 作为 前 级 。 

视频 序列 按照 层 进行 编码 ， 编码 的 视频 序列 、 帧 、 分 片 、 宏 块 和 块 ， 其 中 视频 
序列 是 最 高 层 块 是 最 低层 。 较 高 级 的 层 包 括 较 低级 的 层 及 其 首部 。 

1. 编码 的 视频 序列 [A74] 

编码 的 视频 序列 是 比特 流 中 最 高 级 的 结构 ， 其 比特 流 以 IDR (Instantaneous 
Decode Refresh ， 即 时 解码 刷新 ) 帧 开始 ， 后 面 是 零 或 者 更 多 的 非 IDR 帧 直到 不 包 
括 下 一 个 IDR 帧 或 比特 流 的 结尾 。 解 码 帧 在 比特 流 中 按 顺 序 排 列 ， 与 解码 顺序 
相同 。 

2. WR [A74] 

WRAAE] “PS E RR OT ES i a fE SB A = A E E BE : 
Y (ZÆ), Cb ( 蓝 色差 ) 和 Cr (红色 差 ) UK Y, Ch, Cr 和 原始 的 模拟 分 量 
( 红 、 绿 、 蓝 ) 之 间 的 关系 。 解 码 天 输出 一 系列 帧 。 两 个 连续 帧 之 间 有 一 个 时 间 间 
阳 ， 叫 作 一 帧 的 持续 时 间 。 帧 解码 过 程 包 括 分 解 (首部 和 和 矩阵 信息 ) 过 程 和 解码 
过 程 。 该 标准 文 持 4:2:0 格式 。 在 此 格式 中 ，Cb 和 Cr 矩阵 在 水 平和 垂直 维度 上 都 
是 了 和 抑 阵 的 一 半 大 小 ， 如 图 3. 27 所 示 。“0” 表 示 亮 度 样 值 了 的 位 置 而 “X” 表 示 
色 度 样 值 Cb 和 Cr 的 位 置 。 

该 标准 规定 了 两 类 解码 帧 : 内 部 解码 帧 〈( 工 帧 ) 和 前 向 帧 间 解 码 帧 (P- 帧 ) 。 
P- 帧 最 多 可 有 两 个 参考 帧 用 于 前 向 预测 。 运 动 矢 量 可 有 超越 参考 帧 的 边界 。 在 
此 情况 下 ， 帧 内 最 近 的 像素 将 被 用 于 边界 扩展 。 对 于 亮度 样 值 ， 参 考 像 系 块 不 
会 超过 帧 边界 16 个 像素 ; 对 于 色 度 样 值 ， 在 水 平和 垂直 方向 上 都 不 会 超过 8 
个 像素 。 
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图 3.27 4:2:0 格式 帧 内 亮度 和 人 色 度 样 值 的 水 平和 垂直 位 置 示意 图 [ A74] 


3. DA 

分 片 是 一 个 以 光栅 扫描 顺序 连续 排列 的 宏 块 序列 。 分 片 内 的 宏 块 (MB Mac- 
roblock) 不 能 互相 重 铸 而 且 分 片 之 间 也 不 互相 重 铸 。 分 片 涵 盖 真 个 帧 区 域 ， 除了 环 
路 滤波 过 程 之 外 ， 分 片 内 的 宏 块 解码 过 程 不 会 用 到 帧 内 其 他 分 片 的 数据 。 帧 分 解 为 
分 片 的 示例 如 图 3. 28 所 示 。 





G 





图 3.28 分 片 [A74] 


4. RIR 

分 片 细 分 为 宏 块 。 宏 块 是 一 个 大 小 为 16 x 16 的 像素 区 块 。 每 个 宏 块 的 左上 角 
样 值 不 会 超过 帧 边界 。 这 种 划分 用 于 运动 补偿 。 每 个 矩形 中 的 数字 规定 了 运动 矢量 
出 现 的 顺序 以 及 比特 流 中 的 参考 标号 。 将 帧 划分 为 分 片 使 得 两 个 分 片 的 宏 块 没有 重 
共 ， 对 一 个 宏 块 而 言 分 片 也 没有 重合 。 这 一 点 必须 要 确保 才能 保证 一 个 分 片 中 的 所 
有 宏 块 可 以 只 用 相同 分 片 中 的 宏 块 作为 相 邻 块 进行 解码 。 

一 个 宏 块 包括 4 个 8 x8 的 亮度 块 (Y) 和 两 个 8 x8 的 色 度 块 (一 个 Cb 和 一 
个 Cr) 如 图 3.29 所 示 。 每 个 矩形 框 内 的 数字 规定 了 比特 流 内 一 个 宏 块 中 每 个 8 x 8 
块 的 编码 顺序 。 














Cb Cr 


图 3.29 4:2:0 格式 的 宏 块 结构 


如 末 宏 块 以 子 块 类 型 进行 编码 ， 那 么 每 个 8 x 8 块 要 分 为 大 小 从 8 x8 到 4 x4 
的 子 块 。 图 3. 30 所 示 为 一 个 宏 块 分 解 为 16 x4 x4 的 亮度 块 ， 两 个 色 度 块 每 个 分 成 
4x4x4 块 。 方 框 里 的 数字 表示 编码 安 块 时 的 扫 摘 顺序 。 

编码 视频 序列 比特 流 中 的 分 层 数 据 总 体 结构 如 图 3. 31 所 示 。 








Cb Cr 


回回 加 本 
Y 


图 3.30 4:2:0 格式 宏 块 内 扫描 顺序 [A74] 


分 片 


块 BE 


图 3.31 AVS-M 的 数据 结构 
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3. 8.2 AVS-M 的 体现 


AVS- M 编码 器 和 解码 器 [B17] 的 框图 分 别 如 图 3. 32 和 图 3.33 所 示 。 宏 块 是 
需要 预测 的 ( 帧 内 预测 或 帧 间 预 测 )。 在 AVS- M 编码 器 中 ，S0 用 来 为 当前 宏 块 选 
择 右 预测 方法 ， 而 在 解码 器 中 SO 由 当前 宏 块 的 宏 块 类 型 所 控制 。 然 后 ， 从 原始 宏 
块 中 减 去 预测 宏 块 得 到 预测 残 差 。 之 后 ， 对 残 差 进行 ICT (整数 余弦 变换 ) 再 量 
化 。 量 化 系数 与 运动 矢量 (如 有 果 宏 块 是 帧 间 预 测 的 ) 一 起 用 2D VLC 进行 精 编 码 ， 
然后 传输 到 解码 端 。 编 码 器 在 自己 这 一 端 也 保有 一 个 局 部 解码 器 以 得 到 与 解码 端 获 
得 的 同样 的 重建 巾 。 这 样 做 的 目的 在 于 编码 器 用 来 预测 的 帧 正好 是 解码 器 用 来 进行 
重建 的 那 一 帧 。 所 以 ， 编 码 器 和 解码 器 是 同步 工作 的 。 如 果 不 能 保证 这 一 点 ， 那 么 
量化 误差 就 会 逐渐 积累 。 

一 旦 解码 器 接收 到 AVS- M 比特 流 ， 它 就 对 比特 流 进行 粹 解码 ， 如 果 宏 块 是 帧 
间 预 测 的 就 要 分 离 运 动 拓 量 ,， 然 后 将 逆 变 换 、 量 化 之 后 的 系数 加 到 预测 ( 帧 间或 
帧 内 预测 ) 宏 块 上 ， 再 对 边缘 施加 去 块 效应 滤波 。 这 样 ， 视 频 帧 就 准备 好 巾 任何 
播放 器 进行 播放 了 。 重 建 的 视频 帧 也 被 存储 在 一 个 帧 缓存 里 作为 未 来 帧 帧 间 预 测 的 
参考 帧 ， 和 同一 帧 里 未 来 宏 块 的 帧 内 预测 的 参考 帧 。 解 码 右 的 框图 如 图 3. 33 所 示 。 


帧 内 预测 
整数 余弦 
了 变换 /量化 

O Sy. 




























AVS 比 特 流 














图 3.32 AVS-M 编码 器 框图 [B17] 


帧 内 预测 
逆 量 化 / 逆 整 
AVS-M 数 余弦 变换 














帧 缓存 


图 3.33 AVS-M 解码 器 的 框图 





3.8.3 ”基本 档次 的 多 个 级 别 


这 里 考虑 的 AVS 部 分 是 AVS- M， 也 叫 作 基本 档次 。AVS- M 用 9 个 级 别 定义 了 
基本 档次 。 表 3. 8 ~ 表 3. 10 规定 了 特定 级 别 某 些 语法 元 素 的 限制 。 


表 3.8 级 别 1 的 某 些 语法 元 素 值 的 限制 



































级 别 
EB 数 
1.0 1.1 1.2 1.3 
每 秒 最 大 宏 块 数 1485 1485 6000 11880 
每 帧 最 大 宏 块 数 99 99 396 396 
最 大 安 块 编码 4096 4096 4096 4096 
比特 率 (bit/s) 
最 大 比特 率 (bit/s) 64000 128000 384000 786000 
最 大 解码 帧 114048 114048 456192 456192 
缓存 大 小 (B) 
最 大 编码 帧 17500 350000 1000000 2000000 


缓存 大 小 (bit) 


运动 矢量 最 大 [ -2048, 2047.75] [ -2048, 2047.75] [ -2048, 2047.75] [ -2048，2047.75 ] 
































水 平 范围 
运动 矢量 最 大 [ -32，31.75 ] [ -32, 31.75] [ -32，31.75 ] [ -32, 31.75] 
垂直 范围 
最 大 子 宏 块 矩 形 572 572 572 572 
大 小 (B) 
最 小 压缩 比 2 2 2 2 
表 3.9 级 别 2 基本 档次 的 语法 元 素 限 制 
级 别 
参 数 
2.0 2.1 2.2 
每 秒 最 大 宏 块 数 11880 19800 20250 
每 帧 最 大 安 块 数 396 792 1620 
最 大 宏 块 编码 4096 4096 4096 
比特 率 (bit/s) 
最 大 比特 率 (bit/s) 2000000 4000000 4000000 
最 大 解码 帧 缓存 456192 912384 15552000 
大 小 (B) 
最 大 编码 帧 缓存 2000000 4000000 4000000 


大 小 (bit) 
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( 续 ) 
级 = Fill 
Z & 
2.0 2.1 2.2 
运动 矢量 最 大 [ -2048 2047.75] [ -2048, 2047.75 ] [ -2048 2047.75] 
水 平 范 围 
运动 矢量 最 大 [ -32，31.75 ] [ -32, 31.75] [ 32,31, 75] 
垂直 范围 
最 大 子 宏 块 572 572 572 
矩形 大 小 (B) 
最 小 压缩 比 2 2 2 
% 3.10 3.X 级 别 的 基本 档次 语法 元 素 限制 
级 别 
Z 数 
3.0 3.1 
每 秒 最 大 宏 块 数 36000 40500 
每 帧 最 大 宏 块 数 1620 1620 
最 大 安 块 编码 比特 率 (bit/s) 4096 4096 
最 大 比特 率 (bit/s) 6000000 8000000 
最 大 解码 帧 缓存 大 小 (B) 1555200 1555200 
最 大 编码 帧 缓存 大 小 (bit) 6000000 8000000 
运动 矢量 最 大 水 平 范围 [ -2048, 2047. 75] [ -2048, 2047. 75] 
运动 矢量 最 大 垂直 范围 [ -256, 255.75] [ -256, 255.75 | 
RATER A) (B) 572 572 
最 小 压缩 比 2 2 


3.9 块 模式 预测 模式 


3.9.1 帧 内 预测 


帧 内 预测 结果 从 左 侧 和 上 方 的 块 的 相 邻 像素 得 出 。 有 9 种 帧 内 4 x4 模式 如 
图 3. 34 所 示 。 帧 内 预测 单元 的 大 小 是 4 x4， 因 为 AVS- M 使 用 4 x4 的 整数 余弦 变 
换 (ICT)。 某 些 特定 的 方法 与 4 x4 帧 内 预测 一 起 工作 ,诸如 直接 帧 内 预测 ( DIP， 
Direct Intra Prediction) ， 预 测 前 的 填充 (PBP, Padding Before Prediction) 和 简化 的 
色 度 帧 内 预测 (SCI, Simplified Chrominance Intra- prediction) [ A59], 也 会 用 到 来 
自 相 邻 块 的 最 可 能 模式 预测 [A59], Æ 3.11 示 出 了 当前 块 基于 左 侧 (L) 和 上 方 
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(U) 块 的 最 可 能 模式 [ A27]。 一 旦 没有 左 侧 块 或 上 方块 或 该 块 是 帧 间 编 码 的 ， 
L 或 R 就 被 指定 为 模式 “ - 1”。 一 个 块 级 标志 指示 特定 的 块 是 否 使 用 “最 可 能 模 
式 ” 进 行 编码 ， 一 个 宏 块 级 标志 指示 使 用 了 DIP [ A75，A76 ] 。 如 果 一 个 宏 块 标记 
为 DIP 模式 ， 这 意味 着 在 该 宏 块 里 的 16 个 4 x4 子 块 每 一 个 都 采取 最 可 能 模式 作为 
帧 内 预测 模式 ， 即 使 每 个 4 x4 子 块 的 帧 内 预测 模式 可 能 不 同 ， 这 样 在 比特 流 中 就 
必 传 输 更 多 的 模式 信息 ， 从 而 节约 了 大 量 的 比特 。 最 可 能 模式 的 发 生 概率 是 非常 高 
的 [A24] ， 这 样 就 节约 了 整个 过 程 的 许多 比特 。PBP 用 于 亮度 和 色 度 分 量 ， 在 此 
过 程 中 参考 像 末 “Ds” 和 和 “Hs” 分别 从 “D” 和 “H” 填 充 得 到 ， 这 样 就 跳 过 了 
右上 和 左下 方 参考 像素 可 用 性 的 条 件 测试 。SCI 意味 着 对 于 色 度 分 量 只 使 用 直流 、 
垂直 和 水 平 模式 [A477]. 
模式 0: 左下 模式 1: 垂直 向 左 模式 2: 垂直 模式 3: 垂直 向 右 模式 4: 右 下 


KARRA 
AAAS 
ANAK 
人 ~ 人 NNN | 
下 下 下 下 | 


模式 6: KE ” 模式 7: 水 平 向 上 模式 8: 直流 



























平均 (A,...,D,E,...,H) 





BBB BERGE 


图 3.34 WAHIE [A27] 





目 适 应 帧 内 预测 使 得 4 x4 A AER S x8 帧 内 预测 一 起 使 用 ， 只 要 在 
AVS-2 中 宏 块 首部 里 使 用 一 个 指示 值 [A78] 。 此 外 ， 如 果 当 前 块 及 其 相 邻 块 使 用 
了 不 同 块 大 小 的 帧 内 预测 ， 那 么 在 最 可 能 模式 之 前 需要 在 4 x4 帧 内 预测 模式 和 
8 x8 帧 内 预测 模式 直接 建立 映射 ， 

如 果 当 前 块 是 一 个 色 度 块 ， 那 么 预测 模式 Intra_Chroma_Pred_Mode 等 于 intra_ 
Chroma_pred_mode。 每 个 宏 块 4 x4 的 色 度 块 使 用 相同 的 预测 模式 。4 x4 色 度 帧 内 
预测 模式 如 图 3. 35 所 示 。 
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表 3.11 最 可 能 模式 表 [A27] 








U 
L 

-1 0 1 2 3 4 5 6 7 8 
-1 8 8 8 8 8 8 8 8 8 8 
0 8 0 0 2 0 0 0 2 0 2 
1 8 2 1 2 2 2 2 2 2 2 
2 8 2 2 2 2 2 2 2 2 2 
3 8 2 1 2 3 4 5 2 7 2 
4 8 4 4 2 4 4 4 6 4 4 
5 8 5 5 2 5 5 5 6 5 5 
6 8 6 6 6 6 6 6 6 6 6 
7 8 7 7 2 7 7 7 6 7 7 
8 8 0 1 2 2 4 5 6 7 8 


( 工 表 示 左 侧 块 的 帧 内 模式 ，U 表示 上 方块 的 帧 内 模式 ) 


色 度 水 平 帧 内 预测 模式 


色 度 垂直 帧 内 预测 模式 
13.35 AVS-M 中 的 intra_Chroma_pred_mode 模式 [A27] 


3.9.2 帧 间 预 测 


为 了 去 除 视频 序列 中 的 时 间 宛 余 ， 帧 间 预 测 从 以 前 解码 的 帧 / 场 进 行 预测 。 许 
多 方法 共同 为 AVS- video 帧 间 预 测 的 编码 效率 做 出 贡献 。 有 两 类 帧 间 预 测 : P- 预测 
和 Bi- 预测 。AVS- M 只 文 持 了 -预测 ， 它 只 使 用 过 去 的 解码 帧 作为 参考 帧 。 

帧 间 预 测 结果 来 自 于 解码 帧 。 在 AVS- M 中 共 支 持 7 种 类 型 的 大 小 ，16 x 16、 
16x8., 8x16. 8x8, 8x4., 4x8 和 4x4， 如 图 3.36 所 示 [Al18]。 请 注意 ，AVS 
第 2 部 分 并 不 文 持 子安 块 分 制 。 帧 间 预 测 运动 矢量 的 精度 最 高 为 1/4 像素 ， 这 是 因 
为 AVS-video 的 运动 补偿 预测 允许 运动 矢量 精度 最 高 为 1/4 像素 ， 相 应 的 分 数 运动 
矢量 的 参考 像素 值 由 亚 像素 内 插 获 得 ， 如 图 3. 37 所 示 。AVS- video 默认 的 亚 像素 
内 插 叫 作 两 步 四 抽 头 (TSFT，two steps four taps) Affi [A8]， 且 将 三 种 滤波 需 分 
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别 作用 于 不 同位 置 的 亚 像 素 上 。 两 步 四 抽 头 内 捕 在 第 一 步 使 用 系数 为 ( -1，5， 
5，-1) 的 滤波 禹 来 获得 半 像 系 的 参考 像 系 值 。 第 二 步 ， 利 用 系数 为 (1，7，7， 
1) 的 滤波 需 水 平地 或 垂直 地 求 取 1/4 像素 的 参考 像素 值 。 第 二 步 的 例外 是 对 于 e, 
g, p, TEI 1⁄4 像素 参考 像素 值 ， 使 用 了 对 角 双 线性 滤波 需 。 











8 


10 16 8 8 8 
一 Bn 
Rip 16 1 16 
E! Bel 
8X8 


16X16 16X8 8X16 
8 8 4 4 4 4 
=e, ah 
FE 8 an 
ar gng 
8x8 8x4 AX8 4X4 


13.36 帧 间 预 测 块 大 小 


© ©®0 ©® 人 人 人 %0e 8 @ 








© © © 
© © © 


© e e ee8s8 Gd 0 © @ 
13.37 BBR, FBR, 1/4 参考 像素 的 位 置 





小 尺寸 块 的 性 能 好 于 大 尺寸 块 ， 因 为 分 辨 率 较 低 。4 x4 是 变换 和 帧 内 预测 的 
单元 [A6] [A14], th dt AVS 第 7 部 分 运动 补偿 的 最 小 块 尺寸 。 


3.9.3 ”跳跃 模式 预测 

当 一 个 宏 块 被 确定 用 跳跃 模式 进行 编码 时 ， 除 了 以 跳跃 模式 编码 的 标记 外 ， 不 
发 送 该 宏 块 的 其 他 人 信息。 那么 ， 当 解码 妖 看 到 该 宏 块 用 跳跃 模式 进行 编码 时 ， 解 码 
佑 就 会 使 用 缓存 胡 中 标记 为 零 的 默认 参考 ， 以 及 基于 相 令 宏 块 运动 矢量 (AMR 
块 、 上 方 宏 块 ) 计算 得 到 的 运动 矢量 [A74]. 
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3.9.4 BRAM 


MPF Tit, RAED A ABER SIT 8 RL (RD, Rate Distortion) 代价 ， 
由 式 (3.2) 从 9 个 可 用 的 内 部 模式 中 来 选择 最 优 模式 。 
RD- Cost( 模 式 ) =D( 模 式 ) +A xR( 模 式 ) (3.2) 
UP, A EDR BI ASR, ZETA CTA Ea; RD- Cost (模式 ) 是 一 个 块 
特定 模式 的 率 失 真 代价 ; D (模式 ) 表示 如 果 该 块 用 该 模式 编码 的 失真 ; 
R (模式 ) 是 该 块 用 那个 特定 模式 编码 产生 的 比特 率 。 所 以 ,为 了 确定 一 个 块 的 块 
模式 所 有 9 种 模式 代价 都 要 计算 。 为 了 计算 每 个 代价 ， 编 码 瘟 需要 对 一 个 块 用 所 有 
的 模式 进行 变换 、 量 化 和 烂 编码 来 计算 R (模式 )， 因 为 R (模式 ) 是 用 来 编码 一 
个 块 的 比特 量 。 同 样 ， 编 码 甫 在 自己 这 一 端 也 必须 执行 烂 解码 、 逆 量化 和 逆 变 换 来 
重建 图 像 ， 以 计算 D (模式 ) 因为 D (模式 ) 是 原始 图 像 和 重建 图 像 直接 的 差 值 。 
宏 块 的 全 部 16 个 块 最 好 的 RD- Cost 计算 完毕 ， 如 末 所 有 块 都 以 MPM (most proba- 
ble mode， 最 可 能 模式 ) 编码 ， 编 码 需 就 会 计算 宏 块 的 RD- Cost， 如 果 它 碰巧 小 于 
全 部 16 个 块 最 好 的 RD- Cost 值 ， 就 用 DIP (直接 帧 内 预测 direct intra prediction) 
来 编码 该 宏 块 。 
对 于 P 帧 ,编码 带 计 算 所 有 帧 间 模 式 的 代价 ， 为 帧 间 预 测 计算 出 最 优 模式 。 
基于 R-D 优化 选 定 最 优 的 帧 间 模 式 ， 然 后 也 为 跳跃 宏 块 计算 出 R-D 代价 。 具 有 最 
低 代价 的 编码 模式 被 选 定 ， 宏 块 就 用 那个 模式 来 编码 。 


3.10 ”变换 、 量 化 和 焕 编 码 


























3.10.1 变换 


运动 补偿 的 残 差 用 4 x4 ICT (整数 余弦 变换 ) 进行 变换 ，AVS 中 使 用 的 4 x4 
变换 是 [A74]: 


-1 -2 3 
2 -3 2 -1 
ICT 是 可 分 离 的 且 具 有 整数 精度 。 设 计 它 是 为 了 最 小 化 解码 融 的 实现 复杂 度 。 


3.10.2 ”量化 


一 个 自 适 应 均匀 量化 右 用 于 在 4 x4 的 系数 矩阵 上 执行 量化 过 程 [ B17，A6， 
A27 ] 。 量 化 右 的 步 长 是 可 变 的 以 提供 率 控 制 功能 。 在 固定 比特 率 工 作 条 件 下 ,该 
机 制 可 用 于 防止 缓存 需 溢 出 。 传 输 的 步 长 量化 参数 (QP) 直接 用 于 亮度 系数 ， 而 
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对 于 色 度 系数 它 的 范围 上 界 需要 修改 。 对 于 整 帧 或 
分 片 ， 量 化 参数 可 选 为 固定 值 。 如 果 量 化 参数 不 固 
定 ， 它 可 在 每 个 宏 块 上 进行 不 同 的 更 新 。 量 化 参数 
从 0 到 63 不 等 ， 步 长 为 1。 为 了 提供 低 复 杂 度 的 解 l 
码 顺 实现 方案 ， 人 们 修改 均匀 量化 过 程 来 和 变换 过 2 
程 协同 工作 。 量 化 系数 以 Z 形 方式 进行 扫描 ， 如 图 
3.38 所 示 [A6], 


0 1 2 3 
Dong 
BHON 
加 下 本 加 
ponm 


3.10.3 Afati i 


n er 图 3.38 用 于 量化 变换 系数 的 
AVS- M 使 用 指数 Golomb hE [ A27 | HEITA A 7 形 扫描 模式 


码 ， 见 表 3. 12， 对 语法 元 素 诸 如 量化 系数 ， 宏 块 编 
码 类 型 ， 和 运动 矢量 进行 编码 。 有 18 个 表 用 于 编码 量化 系数 [ A59 ] 。 编 码 妖 用 游 
程 和 当前 系数 的 绝对 值 来 选择 表 3. 12。AVS- M 使 用 了 自 适应 变 长 编码 (VLC) 技 
术 [B17], 

重建 帧 是 预测 帧 和 当前 重建 误差 帧 之 和 。 在 图 3. 32 和 图 3. 33 ， 编 码 器 将 逆 量 
化 和 逆 变 换 系 数 加 到 预测 帧 (通过 SO 开关 选择 的 帧 内 预测 或 帧 间 预 测 ) 上 以 得 到 
重建 帧 。AVS- M 在 重建 帧 上 使 用 去 块 效应 滤波 器 ， 然 后 将 它们 存储 在 缓存 器 中 作 
为 未 来 的 参考 。 
























表 3.12 第 k 阶 Golomb 编码 





指 数 B 结 构 码 数字 范围 
k=0 1 0 

Olxo ieee) 

001 x, xo 3 ~6 

0001 x5. xn Taia 

k=1 lxo 0~1 
Olx; xo 225 

00 1x52, xo 6 ~13 

0001 x3 xX] Xo 14 ~29 


3.10.4 简化 的 去 块 效 应 滤波 器 


去 块 效应 过 程 首 先 沿 着 垂直 边沿 然后 沿 着 水 平 边 沿 直 接 作用 于 重建 的 参考 帧 
上 。 因 为 不 同 的 图 像 区 域 和 不 同 的 比特 率 需 要 不 同 的 平滑 类 型 ， 所 以 AVS- M 依据 
块 的 活动 性 和 量化 参数 对 去 块 效 应 滤波 天 进行 了 相应 的 调整 。 除 了 帧 边界 的 边沿 和 
disable_loop_filter_slice_flag 等 于 1 的 分 片 边沿 ， 所 有 宏 块 的 4 x4 边沿 都 要 被 滤波 
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处 理 。 环 路 滤波 带 把 一 个 宏 块 看 作 一 个 单元 。 每 个 安 块 处 理 如 下 : 

亮度 和 色 度 的 滤波 是 分 开 的 ， 如 图 3.39 所 示 。 首 先 从 左 到 右 进行 垂直 滤波 ， 
然后 从 上 到 下 进行 水 平 滤波 。 尚 未 被 环 路 滤波 过 程 修 改 的 样 值 用 作 当 前 安 块 滤波 过 
程 的 输入 。 水 平 边沿 滤波 过 程 的 输入 是 当前 宏 块 在 垂直 边沿 滤波 过 程 [A74] 中 已 
经 修改 过 的 样 值 。 








亮度 宏 块 边沿 色 度 宏 块 边沿 
图 3. 39” 待 滤波 宏 块 的 块 边沿 [ A74] 


AVS 第 7 部 分 利用 了 一 个 简化 的 去 块 效应 滤波 各 ,边界 强度 在 宏 块 级 别 进行 确 
定 。 滤 波 作 用 于 帧 或 分 片 边界 之 外 的 膨 度 和 人 色 度 块 的 边界 。 帧 内 预测 宏 块 通 第 比 帧 
间 预 测 宏 块 有 更 多 更 大 的 残 差 ， 这 导致 了 在 某 些 QP 上 非常 明显 的 块 效应 。 因 此 ， 
对 于 帧 内 预测 宏 块 使 用 强 效 的 滤波 人 禹 ， 对 于 帧 间 预 测 宏 块 使 用 弱 效 的 滤波 副 。 宏 块 
类 型 为 P_Skip 的 时 候 ， 没 有 编码 残 差 。QP 不 太 大 的 时 候 ， 由 量化 引起 的 失真 相对 
小 一 些 ， 后 面 就 不 需要 滤波 。 

基于 安 块 类 型 和 QP， 标 准 使 用 了 三 种 滤波 模式 。 

对 于 帧 内 预测 宏 块 ， 对 宏 块 中 的 每 个 块 边界 以 及 宏 块 的 左上 边界 使 用 内 部 滤波 
模式 。 对 于 不 是 P_Skip 类 型 或 QP 大 于 某 个 国 值 的 帧 间 预 测 安 块 ， 使 用 帧 间 滤 波 骨 
模式 。 对 于 P_Skip H. QP 小 于 茶 个 国 值 的 帧 间 预 测 宏 世 ， 绕 过 滤波 过 程 。 

对 于 既是 帧 内 又 是 帧 间 模 式 的 滤波 边沿 ， 进 行 样 值 级 别 的 滤波 判决 。 如 果 下 列 
三 个 条 件 很 好 地 成 立 ， 那 么 就 进行 滤波 过 程 ， 否 则 绕 过 滤波 过 程 。 





[Po -qo | <al IndexA) (3.3) 
| Pi -Po | <B( IndexB) (3.4) 
[qi -qo | <B( IndexB) (3.5) 


式 中 ,a 和 有 B 可 由 IndexA, IndexB 计算 得 出 。a 是 IndexA WSKR, HEUER TEE 
Pis Por di 和 go 是 跨越 每 个 样 值 级 别 边 界 的 样 值 ( 见 图 3. 40)。 
对 于 帧 内 和 帧 间 滤 波 模 式 ， 滤 波 过 程 是 不 同 的 。 对 于 帧 内 滤波 模式 ， 用 下 列 方 
程 计算 每 个 待 滤波 块 的 A。 和 A。 
Au = Clip( = Crs Gia Ui —po) x4+ (pi —q,) +4) >>3) (3.6) 





BOGE 
图 3.40 AVS 去 块 效应 滤波 需 样 值 级 别 的 边界 [A24] 
Ai =4 >>1 (3.7) 
PRA Clip 是 一 个 定义 为 Clip(a, b, c) =min| max(a, c), b] 的 运算 。 C ÆI 
分 片 Clip KRAI ERR, MMAR A, 
下 列 公 式 用 来 得 到 pi, pi, q 和 9 的 值 。 


Po =Po + Ay (3.8) 
Pi =P, +A, (3:9) 
qo = qo — Ao (3. 10) 
qi =q -Ai (3.11) 


HOA, Pi, Pos qi 和 gy 的 值 由 范围 是 0- 255 的 ph. pi. q 和 gq' 来 代替 。 

对 于 帧 间 滤 波 模式 ， 首 先 用 CP 代替 CI 计算 A, M A o CP 是 P 分 片 Clip 函数 
的 上 限 值 ， 可 从 CI 推导 得 到 。CP = CI >> 1 + CP_offset， 其 中 CP_offset 是 比特 率 中 
传输 的 偏 移 值 。p;，p’' ，gs 和 91 的 值 可 由 下 面 的 程序 计算 得 到 。 

if(abs(po —p,) <(B >>1))| 





Po =Po + Ao; 

Pi =P, +Ais} 
else | 

Po =Po + Ai; 

pi =Pi3} 
if(abs(qo -91) < (B >>1)) 1 

qo =o — Ao; 

qi =q; - A; ;} 
else | 

do = 一 Ai; 

qi =q;] 


3.11 AVS 第 1 部 分 : 系统 


这 部 分 内 容 来 日 中 国 的 AVS 标准 《GBAT 20090. 1 信息 技术 ”先进 音 视 频 编码 
第 1 部 分 : 系统 》。 

AVS 第 1 部 分 [A1] 将 单 /多 通道 音频 视频 流 或 其 他 基本 数据 流转 换 成 单 /多 
通道 复 用 流 以 备 存储 和 传输 。 

AVS 的 系统 编码 包括 两 个 部 分 : 运输 流 和 程序 流 ， 对 于 不 同 的 应 用 要 进行 优 
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化 。AVS 定义 了 编码 语法 ， 这 对 于 同步 解码 和 显示 音频 视频 信息 是 必要 的 。 该 语 
法 确保 解码 器 的 数据 缓存 器 中 不 会 出 现 溢出 和 下 溢 现 象 。 该 语法 至 少 包 括 下 列 两 类 
言 息 之 一 : 

a) 描述 被 编码 的 音频 /视频 数据 和 流 比特 率 的 相对 时 间 戳 信息 ; 

b) 描述 被 编码 音频 /视频 数据 的 时 间 戳 和 流传 输 的 时 间 戳 信息 。 

同时 ， 运 输 流 和 程序 流 也 是 包 的 复 用 流 。 

单个 音频 和 视频 基本 流 的 复 用 过 程 如 图 3. 41 所 示 。 视 频 和 音频 可 以 按照 AVS 
第 2 部 分 、 第 7 部 分 、 第 3 部 分 和 第 10 部 分 编码 标准 进行 编码 。 然 后 ， 压 缩 数 据 
被 打包 成 为 一 个 PES 。 







视频 数据 





视频 PES 






视频 编码 器 


音频 编码 器 


程序 流 









系统 规定 的 范围 





图 3.41 复 用 过 程 图 


PES 的 语法 结构 如 图 3. 42 所 示 。 

PES 是 包 化 基本 流 (packetized elementary stream) 的 缩写 。 它 的 语法 和 语义 将 
被 用 于 封装 音频 和 视频 基本 流 信息 。PES 语法 用 于 传递 显示 时 间 惟 (PTS，Presen- 
tation Time-Stamp) 和 解码 时 间 惟 (DTS, Decoding Time- Stamp) 信息 ， 同 步 解码 
音频 和 视频 信息 需要 这 些 信息 。( 见 图 3.43 ) 。 


3.11.1 ERR 


程序 流 是 包括 一 个 或 更 多 PES 包 的 单独 的 流 ， 这 些 PES 包 具 有 共同 的 时 间 
鹤 ， 为 相对 无 错 的 环境 而 设计 ， 适 应 于 互动 多 媒体 应 用 等 。 程 序 流 的 包 长 度 是 可 
BE HY 


程序 流 的 速率 可 以 回 定 也 可 以 变化 。 在 任何 情况 下 ， 程 序 流 包含 的 基本 流 的 速 












包 起 始 | 流 识 | PES | EN F 


A 









填充 字 节 
(OxFF) 





图 3.42 包 化 基本 流 的 语法 


解码 视频 





视频 解码 器 


程序 控制 


音频 解码 器 


解码 音频 





程序 流 
图 3.43 程序 流 解 码 器 


率 是 恒定 或 可 变 的 。 程 序 流 的 速率 由 系统 时 钟 参 考 速 率 (SCR, System Clock Refer- 
ence Rate) 域 和 复 用 速率 域 的 值 和 位 置 来 定义 。 

图 3. 43 所 示 为 一 个 AVS 标准 音频 /视频 程序 流 解码 系统 的 原型 ， 但 是 其 结构 
不 唯一 。 图 3. 44 所 示 的 程序 流 解码 妖 原 型 包括 系统 ， 视 频 和 首 频 ,与 AVS 第 1 部 
分 、 第 2 部 分 和 第 3 部 分 相 一 致 。 

程序 流 原 型 解码 融 接受 程序 流 作 为 输入 ， 依 靠 程序 流 解 码 需 从 流 中 抽取 信息 。 
然后 ， 程 序 流 解 码 磊 对 复 用 流 进行 解 复 用 ， 输 出 变 为 音频 解码 硕 和 视频 解码 器 输入 
的 基本 流 。 音 频 / 视 频 解码 硕 的 输出 就 是 解码 后 的 音频 和 视频 信和 号 。 

程序 流 可 分 为 两 层 : 系统 层 和 压缩 层 。 程 序 流 解码 需 的 输入 流 包括 一 个 含有 压 
缩 层 的 系统 层 。 对 于 音频 解码 需 和 视频 解码 顺 ， 输 入 流 只 包括 压缩 层 。 
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图 3.44 程序 流 的 结构 
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程序 流 编 码 带 可 以 把 一 个 含有 一 个 或 更 多 基本 流 的 程序 组 合成 一 个 单独 的 流 。 
在 此 情况 下 ， 基 本 流 数 据 和 能 使 这 些 流 同步 播放 的 信息 复 用 在 一 起 。 

一 个 程序 流 包 含 一 个 或 更 多 的 复 用 在 一 起 且 属 于 相同 程序 的 基本 流 。PES 包 携 
市 基本 流 的 数据 。PES 分 组 群 的 安排 是 ,分 组 首部 在 完 ， 包 紧 随 其 后 。 

PES 分 组 首部 开始 于 一 个 32 比特 的 码 ， 指 明了 分 组 数据 属于 哪 一 个 流 。 

在 程序 流 中 ，PES 分 组 组 合 为 一 个 群 。PES 分 组 群 开始 于 分 组 首部 ， 接 着 是 一 
些 PES 0 分 组 首部 存储 时 间 和 比特 率 信息 从 32 比特 的 start_code JT 

。 程序 流 的 结构 如 图 3. 44 所 示 。 

程序 流 图 (PSM, Program Stream Map) 描述 了 基本 流 及 其 相互 关系 ， 如 图 3. 45 
所 不 
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图 3.45 程序 流 图 
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3.11.2 ”运输 流 


运输 流 由 一 个 或 多 个 单独 的 程序 组 成 ， 形 成 一 个 单一 的 流 。 这 些 程序 可 以 包含 
一 个 或 多 个 不 同 的 时 钟 参 考 ， 在 相同 的 程序 中 包含 耕 干 基本 流 的 PES 分 组 共享 一 
个 共同 的 时 钟 参考 。 设 计 运 输 流 是 为 了 抑制 存储 介质 或 传输 环境 中 可 能 的 有 害 误 
差 。 运 输 流 的 分 组 长 度 是 188B。 

运输 流 的 速率 可 能 是 恒定 的 或 可 变 的 。 不 管 怎样 ， 程 序 流 包含 的 基本 流 也 是 恒 
定 的 或 可 变 的 。 程 序 流 的 速率 由 transport_rate WREX, CRAEN, 

茶 些 操作 能 用 最 小 的 开销 来 执行 ， 这 是 运输 流 的 设计 原则 。 这 些 操作 包括 : 

(a) 从 运输 流 中 的 程序 获取 编码 数据 ， 解 码 并 进行 显示 ; 

(b) 从 一 个 程序 中 抽取 运输 流 分 组 ， 生 成 一 个 只 包含 该 程序 的 新 流 作为 输出 ，; 

(c) 从 一 个 或 多 个 运输 流 中 抽取 属于 一 个 或 多 个 程序 的 运输 流 分 组 ， 形 成 带 
有 这 些 抽 取 分 组 的 新 运输 流 ; 

(d) 从 运输 流 这 抽取 程序 的 内 容 ， 生 成 带 有 抽取 程序 的 程序 流 ; 

(e) 将 程序 流转 换 为 运输 流 ， 并 在 一 个 有 损 和 有 了 品 的 环境 中 进行 传输 。 然 后 
重建 一 个 有 效 的 程序 流 ， 在 某 些 情况 下 正好 就 是 原始 的 程序 流 。 

图 3. 46 描述 了 一 个 以 运输 流 为 输入 的 解 复 用 和 人 解码 系统 原型 。 图 3.47 说 明了 
操作 a， 在 其 中 一 共 运 输 流 被 下 接 解 复 用 和 解码。 运输 流 的 结构 可 被 分 为 两 层 ， 系 
统 层 和 压缩 层 。 























视频 解码 器 | 解码 视频 


运输 流 解 复 用 & 解 码 器 


包含 多 个 程序 的 运输 流 包含 单个 程序 的 运输 流 





图 3.47 传输 复 用 原型 


图 3. 46 说 明了 一 个 运输 流 解码 紫 原 型 ， 它 包括 AVS 标准 提供 的 视频 和 音频 解 
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码 般 。 这 不 意味 着 AVS 标准 发 布 的 原型 对 于 运输 流 解码 需 的 设计 要 求 严 格 的 限制 ， 
而 且 解码 希 也 不 是 唯一 的 。 事 实 上 ， 非 音频 /视频 数据 也 能 被 使 用 。 

图 3. 47 示 出 了 男 一 种 情况 ， 其 中 包含 一 个 或 多 个 程序 的 运输 流 补 变换 为 只 包 
含 单 一 程序 的 运输 流 。 在 此 情况 下 ， 可 能 需要 重复 用 操作 来 矫正 transport_rate 的 
值 ， 该 值 用 于 补偿 比特 流 中 传输 速率 的 变化 。 

AVS 运输 流 编码 允许 一 个 或 多 个 程序 封装 在 一 个 流 中 。 每 个 基本 流 和 用 来 同 
步 数 据 并 显示 每 个 程序 基本 流 的 信息 复 用 在 一 起 。 运 输 流 如 图 3. 48 所 示 。 








= 188B > 


有 效 有 效 有 效 
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图 3.48 运输 流 的 结构 


一 个 运输 流 包 括 一 个 或 多 个 程序 。 视 频 和 音频 基本 流 包 括 一 个 或 多 个 访问 单 
元 。 基 本 流 数 据 由 PES 包 携 带 。 一 个 PES 包 由 首部 和 数据 组 成 。 

PES 包 插 入 到 运输 流 包 之 内 ， 每 个 PES 包 首 部 的 第 一 个 字 节 位 于 运输 流 包 第 
一 个 可 用 的 有 效 载荷 的 位 置 。PES 包 首 部 以 32bit 的 起 始 码 开头 ， 该 起 始 码 也 指明 
该 包 所 属 的 流 或 流 类 型 。 

运输 流 包 可 以 为 空 ， 空 包 用 来 填充 运输 流 ， 在 重复 用 过 程 中 可 被 插入 或 者 
删除 。 

运输 流 图 描述 了 基本 流 及 其 相关 关系 ， 如 图 3. 49 所 示 。 

设计 程序 流 和 运输 流 是 为 了 满足 不 同 的 应 用 。 程 序 流 和 运输 流 的 定义 并 不 严格 
遵守 分 层 模 型 ; 它们 彼此 之 间 可 以 互相 交换 ， 但 不 是 对 方 的 一 个 子 集 或 超 集 。 从 一 
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个 运输 流 中 可 以 抽取 一 个 程序 ， 一 个 有 效 的 程序 流 可 由 此 创建 。 这 两 种 类 型 流 之 间 
的 转换 可 以 按照 PES 包 的 公共 交换 格式 来 完成 ,但 不 是 程序 流 所 需 的 所 有 域 包 含 


在 运输 流 之 中 ; 某 些 域 需要 被 导出 。 
a 最 后 CR 
段 序号 oe BEID 
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To 32 
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图 3.49 运输 流 图 


3.12 IEEE AVS 


P1857/D1 2012 年 7 月 试用 草案 代表 被 IEEE-SA 标准 委员 会 通过 的 先进 首 视频 
编码 标准 。 这 是 一 个 IEEE 标准 提案 的 获准 草案 ,提案 于 2013 年 4 月 由 IEEE-SA 
委员 会 批准 通过 ， 于 2013 年 6 月 对 公众 发 布 。 

下 面 内 容 摘 自 这 个 标准 的 试用 草案 。 要 访问 整个 标准 ， 可 发 邮件 Stds. ipr@ 
ieee. org， 网 址 为 http; //standards. ieee. org/index. html, 

摘要 : 多 媒体 数据 已 经 成 为 互联 网 中 数据 的 主要 部 分 。 在 包括 有 限 复杂 度 和 华 
宽 的 限制 之 下 ，IEEE AVS 标准 [A82] 规定 了 视频 和 音频 压 缩 、 解 压 、 封 装 工 具 、 
以 及 高 效 地 支持 互联 网 上 多 媒体 数据 传输 与 存储 的 机 制 。 

标准 的 这 部 分 定义 了 一 套 高 效 视频 编码 的 工具 ， 包 括 多 回 帧 内 预测 、 变 块 大 小 
帧 间 预 测 和 基于 上 下 文 自 适 应 二 进 制 算术 编码 ， 等 等 。 而 且 ， 它 也 规定 了 解码 程序 。 

目标 应 用 和 业务 包括 但 不 限于 互联 网 电视 、 用 户 生 成 的 多 媒体 内 容 、 基 于 IP 
的 视频 会 议 、 基 于 IP 的 监控 ， 以 及 具有 其 他 视频 /音频 功能 的 业务 和 应 用 诸如 数字 
电视 广播 、 数 字 存 储 媒体 和 通信 。 

[IEEE AVS] 为 多 媒体 数据 的 压缩 、 解 压 和 封装 提供 了 完整 的 高 质量 而 有 效 的 
编码 工具 集 ， 以 节约 互联 网 的 传输 带宽 或 者 存储 空间 。 

[IEEE AVS] 包括 如 下 几 个 部 分 : 

第 一 部 分 . 系统 
一 第 二 部 分 : 视频 
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一 第 三 部 分 : 音频 
3.12.1 应 用 


设计 这 个 标准 是 为 了 早 括 广泛 的 应 用 领域 ,包括 但 不 限于 : 

CATV (Cable TV on optical networks，copper，etc. )” 光 、 铜 线 等 网 络 上 的 有 线 电 视 

DBS (Direct broadcast satellite video services) “卫星 视频 直播 业务 

DSL (Digital subscriber line video services) “数字 用 户 线 路 视频 业务 

DTTB (Digital terrestrial television broadcasting) ”陆地 数字 电视 广播 

IPTV (Internet Protocol Television) IP 电视 

ISM (Interactive storage media (optical disks, ete.) 互动 存储 介质 (光盘 等 ) 

MMM (Multimedia mailing) 多 媒体 邮件 

MSPN (Multimedia services on packet networks) “分 组 网 络 多 媒体 业务 

RTC ( Real- time conversational services ( videoconferencing, videophone, etc. ) 
实时 会 话 业务 (视频 会 议 、 视 频 电 话 等 ) 

RVS (Remote video surveillance) ”远程 视频 监控 


3.12.2 ”档次 和 级 别 


这 个 标准 能 提供 很 宽 范 围 的 比特 率 、 分 辩 率 和 质量 。 考 虑 到 内 插 能 力 ， 通 过 
“档次 ”和 “级 别 ” 约 定 了 数量 有 限 的 语法 子 集 。 

“档次 ”就 是 标准 的 语法 元 系 、 语 义 和 算 法 特征 的 一 个 子 集 。 

“级 别 ” 是 对 语法 元 素 和 值 所 指定 的 限制 集合 ， 这 些 限 制 可 被 某 一 档次 的 语法 
元 素 所 接受 。 


3.12.3 设计 特征 概述 


在 此 标准 中 ， 硅 干 技术 可 以 被 用 于 实现 高 效 的 压缩 ， 包 括 帧 内 预测 、 帧 间 预 
测 、 变 换 、 量 化 、 和 类 编码 等 。 帧 间 编 公 对 于 基于 块 的 帧 间 预 测 使 用 运动 天 量 来 开发 
不 同 帧 间 的 时 间 统 计 元 余 。 帧 内 编码 使 用 不 同 的 空间 预测 模式 来 开发 单 帧 源 信和 号 内 
的 空间 统计 元 余 。 预 测 残 差 通过 变换 来 进一步 压缩 以 去 除 变 换 块 内 的 空间 相关 性 ， 
之 后 进行 量化 生成 了 一 个 不 可 逆 过 程 ， 该 过 程 通常 会 丢弃 不 太 重 要 的 视觉 信息 而 形 
成 源 信号 样 值 的 紧密 近似 。 最 后 ， 运 动 矢量 或 帧 内 预测 模式 与 量化 系数 复 用 在 一 起 
EAT ei Fat o 























3.13 BE 


本 章 详细 陈述 了 AVS China ( 编 /解码 器 )。 它 非常 类 似 于 H.264/AVC (第 4 
章 ) ， 除 了 某 些 功能 被 最 小 化 从 而 导致 了 复杂 度 降 低 和 可 忽略 的 视觉 质量 损失 。 








3. 14 ”专题 研究 


P. 3.1 


P. 3.2 


P. 3.3 


JL Sahana Devaraju 的 专题 报告 “A study on AVS-M video standard” (UTA 
网 址 一 EE5359 一 Spring 2009) , AVS-M 是 第 7 部 分 ( 见 表 3.1)， 服 务 于 处 
理 能 力 和 功 耗 有 限 的 移动 系统 和 设备 。 它 使 用 视频 测试 序列 (CIF 和 
QCIF) ， 将 SNR 的 分 贝 值 与 每 帧 比特 数 的 对 应 关系 列 成 了 表格 。 请 读者 用 
不 同 的 测试 序列 并 得 到 类 似 的 结果 ; 绘制 SSIM 与 比特 / 帧 的 关系 曲线 。 

JL S. Sridhar’ s 的 论文 “Multiplexing/ De- multiplexing AVS- China video with 
AAC audio bit streams achieving lip sync” ( UTA 网 址 一 EE5359 一 >List of recent 
theses/projects) o Sridhar 能 够 实现 这 一 点 ， 视 频 和 音频 重新 播放 之 间 的 清 
后 时 间 (同步 时 延 ) 至 多 为 10ms ( 表 6.2)。 超 过 最 大 浏 后 时 间 140ms, 
可 以 感受 到 视觉 时 延 。 请 读者 使 用 不 同 的 视频 和 音频 测试 序列 进行 这 项 
研究 。 

Pragnesh Ramolia 利用 机 需 学 习 算 法 C4.5 实现 了 一 种 低 复 杂 度 的 AVS- M。 
基于 几 个 测试 序列 (QCIF), SRRA AVS- M 编码 希 相 比 ， 他 能 够 实现 降 
AR 75% ~ 80% 的 编码 时 间 ， 而 PSNR 的 降低 可 以 容忍 。 请 读者 将 这 篇 论文 
推广 至 CIF 测试 序列 ， 并 且 在 AVS 第 2 部 分 SD/HD 视频 中 也 加 以 推广 ; 
参见 结论 和 未 来 的 工作 。 





S425 HH. 264/MPEG-4 先进 视频 编码 


摘要 : 类 似 于 AVS China (第 3 章 )， 描 述 了 H.264/AVC 的 档次 、 级 别 和 功 
能 。 从 视频 压缩 的 视角 说 明了 各 种 块 的 作用 。 由 此 可 见 AVS China 和 H. 264/AVC 
之 间 的 相似 性 和 差别 。 

关键 词 : H. 264/MPEG-4 第 10 部 分 AVC ITU-T H.264 编码 器 ”H.264 f 
码 器 JM 软件 预测 变换 环 路 去 块 效应 滤波 器 MS 


4.1 概述 


2003 年 出 现 的 H. 264/MPEG-4 第 10 部 分 先进 视频 编码 (AVC; Advanced Vid- 
eo Coding) 成 为 最 新 且 最 有 效 的 视频 编码 标准 之 一 [ H51 ] 。H. 264 标准 由 联合 视 
频 团 队 (JVT: Joint Video Team) 制定 ， 该 团队 包括 ITU-T (International Telem- 
communication Union - Telecommunication Standardization sector， 国 际 电信 联盟 -电信 
标准 部 门 ) 的 VCEG (Video Coding Experts Group ， 视 频 编 码 专家 组 ) ， 和 ISO/IEC 
的 MPEG (Moving Picture Experts Group ， 运 动 图 像 专家 组 ) 组 成 [H51 ] 。 

由 于 H. 264 便于 一 种 网 络 友好 的 视频 表示 ， 它 能 文 持 各 种 互动 的 (视频 电话 ) 
和 非 互动 的 应 用 (广播 、 流 媒体 、 存 储 、 视 频 点 播 ) [H29]。 它 再 次 使 用 了 以 前 
编码 标准 的 思想 ， 诸 如 MPEG-1, MPEG-2, MPEG-4 第 2 部 分 、H. 261. H. 262 和 
H. 263 [H23 ，B3 ] ， 并 增加 了 许多 其 他 的 编码 工具 和 方法 ， 从 而 使 得 它 有 具有 优越 
的 质量 和 压缩 效率 。 

像 任何 其 他 以 前 的 基于 运动 的 编 解码 系统 一 样 ， 它 使 用 了 下 列 基 本 的 视频 压缩 
原则 [S10]; 

© 用 于 降低 空间 相关 的 变换 ; 

。 控制 比特 率 的 量化 ; 

。 降低 时 间 相 关 的 运动 补偿 预测 ; 

© BEARS ALS HY SAY o 

H. 264 改善 的 编码 效率 可 以 归 因 于 附加 的 编码 工具 和 新 的 特征 。H. 264 首次 使 
用 的 部 分 新 的 和 改进 的 方法 罗列 如 下 [ H29]: 

。 目 适 应 帧 内 预测 ; 

。 整数 精度 的 小 尺寸 块 变 换 ，; 

。 多 参考 帧 和 广义 的 B W; 

。 可 变 的 块 大 小 ; 
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© 1/4 像素 精度 的 运动 补偿 ; 

© 内 容 自 适应 环 路 去 块 效应 滤波 需 ; 

e 引入 CABAC (上 下 文 自 适 应 二 进 制 算术 编码 ) 和 CAVLC (上 下 文 自 适应 
变 长 编码 ) CSE A ZT AS o 

与 以 往 的 编码 标准 相 比 ， 编 码 效 率 的 提高 以 及 压缩 比 的 提高 导致 了 H. 264 编 
码 需 和 解码 需 算 法 较 大 的 复杂 度 。 为 了 便于 在 网 络 上 传输 信息 而 进行 抗 误 码 设计 ， 
H. 264 支持 一 下 技术 [H29]; 

© 灵活 的 宏 块 排序 ，; 

° UMIK ; 

© 任意 的 分 片 顺 序 ; 

© JURA ; 

© 数据 分 割 ; 
参数 设置 。 


4.2 H. 264 的 档次 和 级 别 


H. 264/ AVC 标准 由 很 多 编码 工具 构成 。 该 标准 也 处 理 大 范围 的 比特 率 、 分 辨 
率 、 质 量 、 应 用 和 业务 。 对 于 任何 在 给 定时 间 点 上 的 特定 应 用 ， 并 非 需要 所 有 的 工 
具 和 所 有 的 比特 率 。H. 264 所 有 的 各 种 各 样 的 工具 是 按照 档次 进行 分 组 的 。 


4.2.1 H. 264 的 档次 


档次 定义 为 一 个 编码 工具 的 子 集 。 它 们 有 助 于 在 复杂 度 受 限时 使 互 操作 性 最 大 
化 [SI10，H13]。 而 不 同 的 级 别 则 定义 了 不 同 的 参数 例如 解码 图 像 的 大 小 、 比 特 
率 等 。 

H. 264 所 定义 的 档次 如 下 所 列 [Hl8 ] : 

1) 基本 档次 ; 

2) 扩展 档次 ; 

3) 主 档次 ; 

4) 高 档次 (定义 在 FRExts 修正 案 中 ) 。 

图 4. 1 描述 了 H. 264 各 种 档次 的 编码 工具 。 图 4. 1 示 出 了 既 有 公共 编码 部 分 又 
有 特殊 编码 部 分 的 档次 。 所 有 档次 的 公共 部 分 的 一 部 分 是 : 

e 工分 片 〈 帧 内 编码 分 片 ) : 编码 分 片 只 使 用 来 自 相 同 分 片 内 解码 样 值 的 预 
测 值 ; 

© P 分 片 (预测 编码 分 片 ): 编码 分 片 使 用 以 前 解码 的 参考 帧 的 帧 间 预 测 值 ， 
至 多 用 到 一 个 运动 矢量 和 参考 索引 来 预测 每 个 块 的 样 值 ; 

。 用 作 炉 编码 的 CAVLC (基于 上 下 文 的 自 适应 变 长 编码 )。 
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抗 误 码 支持 ao 
E 
扩展 档次 
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数据 分 割 











(4x4) 或 (8x8) 
AVS AVA HE BF 

颜色 残 差 变换 
无 损 预 测 编码 













SI 分 片 


q g 
加 权 预 测 
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L| 
任意 片 次 序 N 


灵活 的 宏 块 次 序 
元 余 分 片 


抗 误 码 工 具 





T 
基本 档次 





图 4.1 H. 264 的 不 同 档次 以 及 不 同 编码 工具 在 档次 内 的 分 布 [H23] (200 Elsevier) 


表 4.1 列 出 了 H. 264 档次 和 每 种 应 用 的 重要 需求 。 
表 4.1 H.264 档次 与 每 种 应 用 的 重要 需求 [B8] 























































































































应 用 需 求 H. 264 档次 
广播 电视 编码 效率 ， 可 靠 性 〈 经 过 噪声 可 控 的 信道 ) , 
es ‘ 主 档次 
隔行 视频 ， 低 复杂 度 解码 需 
流 视 频 编码 效率 ， 可 靠 性 (经 过 不 可 控 的 分 组 网 络 
扩展 档次 
信道 )， 可 伸缩 性 
视频 存储 和 回放 编码 效率 ， 隔 行 视 频 ， 低 复杂 度 编码 器 和 解 ae 
n ERK 
tat 
视频 会 议 ee 基本 档次 
做 和 解码 需 
移动 视频 编码 效率 ， 可 靠 性 ， 低 时 延 ， 低 复杂 度 编码 spire 
器 和 解码 ， 低 功 耗 
工作 室 分 布 无 损 或 近 无 损 ， 隔 行 视 频 ， 有 效 的 转 码 主 档 次 ， 高 档次 


1. 基本 档次 
主 档次 包括 的 工具 列表 中 有 工 ( 帧 内 编码 ) 和 P (预测 编码 ) 分 片 编码 ， 灵 活 
宏 块 排序 的 强化 抗 误 码 工具 、 任 意 分 片 和 元 余 分 片 。 它 也 支持 CAVLC (基于 上 下 





文 的 自 适 应 变 长 编码 ) 。 基 本 档次 的 设计 目的 是 用 在 低 时 延 场合 下 、 对 处 理 能 力 要 
求 低 的 应 用 、 以 及 高 的 丢 包 环境 中 。 在 所 有 的 三 个 档次 中 该 档次 编码 效率 最 低 。 

e 灵活 的 宏 块 顺序 (FMO, Flexible Macro- Block Order) : 宏 块 可 以 不 必 人 处 于 
光栅 扫描 顺序 中 。 该 映射 将 宏 块 指定 给 一 个 分 搬 组 ; 

© 任意 分 片 顺序 (ASO, Arbitrary Slice Order); 一 帧 的 一 个 分 片 的 第 一 个 安 
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块 的 地 址 可 能 小 于 同一 编码 帧 某 个 其 他 以 前 的 分 片 的 第 一 个 宏 块 的 地 址 ，; 

e JERIT (RS, Redundant Slice) : 与 同一 分 片 前 面 解码 的 数据 相 比 ， 该 分 
片 属于 由 相同 或 不 同 编码 速率 获得 的 元 余 编码 数据 。 

2. 主 档次 

主 档次 (MP) 中 包括 的 编码 工具 有 I、P 和 B (双向 预测 编码 ) 分 片 ， 隔 行 编 
码 、CAVLC 和 CABAC (基于 上 下 文 的 自 适应 二 进 制 算术 编码 )。 不 被 主 档次 支持 
的 工具 有 抗 误 码 工 具 、 数 据 分 割 和 SI (switched intra coded， 切 换 帧 内 编码 的 ) 和 
SP (切换 预测 编码 的 ) 分 片 。 这 个 档次 则 在 实现 最 高 可 能 的 编码 效率 。 

e BF (双向 预测 编码 分 片 ): 编码 分 片 利 用 前 面 解码 的 参考 帧 的 预测 值 ， 
至 多 使 用 两 个 运动 矢量 和 参考 索引 来 预测 每 个 块 的 样 值 ; 

e 加 权 预 测 : 通过 对 运动 补偿 预测 的 P 或 B 分 片 数据 进行 加 权 而 进行 的 缩放 
操作 ; 

。 CABAC (基于 上 下 文 的 自 适 应 二 进 制 编码 ) BET SOS 

3. 扩展 档次 

扩展 档次 (XP) 具有 基本 档次 中 包括 的 所 有 工具 。 如 图 4.1 所 示 ， 这 个 档次 
也 包括 BL SP 和 SI 分 片 ， 数 据 分 割 、 隔 行 的 帧 和 场 编码 、 图 像 自 适应 帧 / 场 编码 和 
宏 块 自 适 应 帧 / 场 编码 。 该 档次 提供 比 基 本 档次 更 好 的 编码 效率 。 这 些 附加 的 工具 
导致 了 复杂 度 的 提高 。 

。 包括 基本 档次 的 所 有 部 分 : 灵活 的 宏 块 顺序 ， 任 意 分 片 顺 序 ， 宛 余 分 片 ; 

© SP 分 片 : 用 于 在 视频 流 之 间 有 效 切 换 的 特殊 编码 分 片 ， 类 似 于 了 分 片 的 
编码 ; 

e SI 分 片 : 切换 分 片 ， 类 似 于 一 个 I 分 片 的 编码 ; 

© 数据 分 割 : 编码 数据 放 在 不 同 的 数据 部 分 ， 每 部 分 可 被 放 在 不 同 的 层 单 
元 内 ; 

e BF; 

。 加 权 预 测 。 

4. FRExts 修订 案 定 义 的 高 档次 

2004 年 9 月 ，H.264/MPEG-4 AVC 视频 编码 标准 的 第 一 个 修订 案 发 布 了 
[H18]。 一 组 新 的 编码 工具 集 作 为 这 个 修订 案 的 一 部 分 面世 了 。 它 们 叫 作 “ 保 真 度 
范围 扩展 (Fidelity Range Extensions，FRExts)”。 发 布 FRExts 的 目的 是 为 较 高 保 真 
度 材料 的 编码 效率 实现 明显 的 改善 。FRExts 工具 的 应 用 领域 包括 专业 的 电影 制作 、 
视频 制作 和 高 清 电视 /DVD。 

。 包括 主 档次 的 所 有 部 分 : B 分 片 、 加 权 预 测 CABAC; 

o 目 适 应 变换 块 大 小 : 亮度 样 值 4x4 或 8 x8 的 整数 变换 ; 

。 量化 缩放 和 矩阵 : 在 量化 过 程 按照 与 变换 系数 相关 的 特定 频率 进行 不 同 的 缩 
放 来 优化 质量 。 
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FRExts 修订 案 定 义 了 四 种 新 的 档次 〈 见 图 4.2) [H11]: 

。 高 档次 (HP) 支持 8 比特 4:2:0 采样 的 高 分 辩 率 视频 应 用 ; 

。 高 10 档次 (Hil0P) 支持 4:2:0 采样 、 最 高 每 样 值 10bit 的 表示 精度 ; 

。 高 4:2:2 (Hi422P) 支持 最 高 4:2:2 的 色 度 采样 和 最 高 每 样 值 10bit 的 表示 


。 高 4:4:4 (Hi444P) 支持 最 高 4:4:4 的 色 度 采样 和 最 高 每 样 值 12bit 的 表示 
精度 ， 以 及 编码 RGB 信号 的 整数 颜色 残 差 变换 。 






样 值 位 深 : 
8-12 


颜色 残 差 变换 










8x8 亮 度 变换 

8x8 空 域 亮度 预测 
AIDE A TBE RE 

单 色 格式 
=r 


[可 













主 档 次 
工具 







无 损 编码 
4:4:4 
色 度 格式 





图 4.2 FRExts 引入 的 工具 以 及 在 新 的 高 档次 下 的 分 类 [H18] (2005 IEEE) 


表 4.2 高 档次 与 FRExts 引入 的 相应 编码 工具 的 比较 [H11] (2004 SPIE) 

















编码 工具 高 档次 高 10 档 次 高 4:2:2 档 次 高 4:4:4 档 次 
主 档次 工具 x x x x 
4:2:0 色 度 格式 x x x x 
8bit 样 值 位 深 x x x x 
8 x8 对 4x4 变换 自 适 应 性 x x x x 
量化 缩放 矩阵 x x x x 
Cb 和 Cr 各 自 的 量化 参数 (QP) 控制 x x x x 
单 色 视频 格式 x x x x 
9 和 10bit 样 值 位 深 x x x 
4:2:2 色 度 格式 x x 
11 和 12bit 的 样 值 位 深 x 
4:4:4 色 度 格式 x 
颜色 残 差 变换 x 
无 损 预 测 编码 x 

















这 四 个 档次 进一步 建立 在 以 前 主 档次 的 设计 之 上 。 表 4.2 提供 了 FRExts 引入 
的 高 档次 的 比较 ， 列 出 了 不 同 的 编码 工具 ， 以 及 哪个 工具 用 于 哪个 档次 。 所 有 的 高 
档次 包括 以 下 三 个 编码 效率 的 性 能 增强 措施 : 
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© 在 8x8 和 4x4 变换 块 大 小 之 间 进 行 自 适应 的 宏 块 级 切换 ，; 

。 在 FRExts 中 引入 8 x8 变换 背后 的 原因 是 高 保 真 度 视频 要 求 保持 细 方 和 纹 
理 。 为 了 实现 这 一 目的 ， 就 需要 用 到 较 大 的 基数 。 然 而 ， 较 小 的 变换 如 4 x4 降 
低 了 振 铃 效应 和 计算 复杂 度 。 编 码 需 在 4x4 和 8 x8 之 间 自 适应 地 选择 。 

变换 选择 过 程 受 限于 下 列 条 件 。 

一 如 果 一 个 帧 间 编 码 宏 块 具 有 小 于 8 x8 的 子 部 分 (也 就 是 说 ，4 x8，8 x4， 
4 x4) ， 那 么 就 必须 使 用 4 x4 变换 。 

一 如 果 一 个 帧 内 编码 宏 块 用 8 x8 空间 预测 进行 预测 ， 那 么 只 用 8 x8 变换 。 

。 编码 器 规定 的 基于 知觉 的 量化 缩放 和 矩阵。 

编码 器 可 以 根据 特定 的 频率 规定 一 个 缩放 因数 的 和 矩阵， 该 频率 与 用 在 解码 顺 逆 
量化 的 变换 系数 有 关 。 此 举 使 得 按照 人 类 视觉 系统 的 敏感 性 进行 优化 成 为 可 能 ， 即 
对 于 高 频 变换 系数 的 编码 误差 较 不 敏感 [B3]. 

。 编码 器 规定 的 对 每 个 色 度 分 量 量化 参数 进行 独立 的 控制 。 


4.2.2 H.264 的 级 别 


图 像 大 小 和 帧 率 是 影响 实现 编 / 译 码 所 需 处 理 能 力 和 存储 空间 的 主要 因素 。 表 
4.2 提供 了 FRExts 引入 的 各 个 高 档次 的 比较 ， 列 出 了 档次 中 用 到 的 不 同 的 编码 工 
具 [H11], H. 264/AVC 定义 了 16 种 不 同 的 级 别 ， 主 要 受 限 于 图 像 大 小 和 帧 率 。 
级 别 也 对 参考 帧 数 以 及 可 用 的 最 大 压缩 比特 率 提供 约束 。 每 个 级 别 定 义 了 比特 流 的 
上 界 和 解码 需 能 力 的 下 界 。 一 个 档次 和 级 别 可 结合 起 来 定义 一 致 点 (原文 : conform- 
ance points 译 者 注 ) 。 这 些 点 表示 具有 类 似 功 能 需求 的 应 用 可 以 协同 操作 的 地 方 
[H8]。 为 了 主要 解决 3G 无 线 网 络 环境 的 需求 ， 在 FRExt 修订 案 中 加 入 “1b” 级 别 。 
FRExt 档次 对 于 要 求 更 高 的 高 保 真 度 应 用 在 提高 比特 率 能 力 方 面 进行 了 规定 。 












































4.3 H. 264 编码 器 


Al 4.3 描述 了 H. 264 Sata AN EL, BRE BCAA VA CE BY Si EA AB EF, 
H. 264 基于 宏 块 和 运动 补 侯 进 行 工作 。 视 频 由 一 系列 图 像 帧 形成 。 每 个 图 片 帧 就 是 
一 幅 图 像 ， 一 幅 图 像 被 细 分 成 块 。 在 H. 264 中 ， 块 尺寸 可 以 改变 。 编 码 器 对 于 给 
定 图 像 帧 的 宏 块 可 以 进行 帧 内 编码 或 帧 间 编 码 。 帧 内 编码 帧 的 编码 和 解码 是 独立 
的 。 它 们 不 需要 任何 参考 帧 。 因 和 而， 它们 提供 了 编码 序列 的 访问 点 ， 解 码 可 以 从 该 
访问 点 开始 。H. 264 在 帧 内 编码 中 使 用 9 种 空间 预测 模式 来 降低 图 像 源 信号 中 的 空 
间 宛 余 。 本 市 解释 了 这 些 模 式 。 帧 间 编 码 用 到 来 自 某 些 以 前 解码 帧 的 一 个 给 定 块 的 
预测 值 。 帧 间 编 码 的 目的 是 通过 利用 运动 矢量 来 降低 时 间 见 余 。 运 动 撩 量 给 出 了 一 
个 特定 块 从 当前 帧 到 下 一 帧 的 运动 方向 。 然 后 ， 得 到 的 预测 残 差 要 进行 变换 来 消除 
块 内 的 空间 相关 性 。 接 着 对 这 样 获 得 的 变换 系数 进行 量化 。 从 帧 间 预 测 或 帧 内 模式 
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得 到 的 运动 矢量 与 量化 后 的 变换 系数 信息 组 合 在 一 起 。 然 后 对 它们 用 箭 编码 方法 进 
行 编码 ， 例 如 基于 上 下 文 的 目 适 应 变 长 码 (CAVLC) 或 基于 上 下 文 的 日 适应 二 进 


制 算 术 编 码 (CABAC) [H23], 


视频 输入 a C/CAVLC/CABAC 
PAER 前 向 量化 器 缩放 | 编码 器 和 比特 流 格式 
O daca 化 程序 器 
视频 比特 流 
预测 类 型 , 宏 块 类 型 , 道 


量化 参数 .差分 运动 矢量 
逆 扫 描 ; 缩放 因 | 去 块 效应 滤波 脸 参 
子 和 道 量化 器 | RERAN 
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图 4.3 H. 264 编码 需 框 图 [H13] (2004 Elsevier) 





H. 264 编码 融 内 部 有 一 个 本 地 解码 句 。 这 个 解码 器 执行 逆 量 化 和 逆 变 换 操 作 来 
获得 空间 域 的 残 差 信号 。 预 测 信号 加 上 残 差 信号 即 可 重建 和 输入 帧 。 这 个 输入 帧 馈送 
给 去 块 效 应 滤波 器 来 去 除 块 边界 上 的 块 效应 现象 。 然 后 ， 去 块 效应 滤波 需 的 输出 馈 
送 给 帧 间 / 帧 内 预测 块 来 生成 预测 信号 。 

H. 264 所 用 的 各 种 编码 工具 在 这 一 部 分 解释 。 


4.4 帧 内 预测 


帧 内 预测 利用 像素 间 的 空间 相关 性 ， 有 3 种 定义 的 基本 类 型 : 
© 对 于 16 x16 完整 的 亮度 或 相应 大 小 的 色 度 安 块 的 预测 ; 
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。 对 于 FRExts 定义 的 档次 中 8 x8 亮度 块 的 预测 ; 

。4 x4 亮度 预测 。 

帧 内 预测 使 用 来 自 同 一 幅 图 像 的 宏 块 进行 预测 。 对 于 亮度 分 量 ,， 使 用 两 种 类 
型 的 预测 方案 。 这 两 个 方案 可 以 称 为 INTRA_4x4 和 INTRA_16x16 [H8]. 在 
INTRA_4 x4 中 ， 一 个 大 小 为 16 x16 的 宏 块 分 为 16 个 4x4 AFR TAN 
案 单 独 地 运用 到 这 些 4 x4 的 子 块 上 。 总 共 支 持 9 种 不 同 的 预测 模式 如 图 4.4 所 
7R [H47], 











3( 左 下 方向 对 角 线 ) 。 4( 右 下 方向 对 角 线 ) 
BUDE OE 








图 4.4 H.264 中 4 x4 亮度 预测 ( 帧 内 预测 ) 模式 (2010 Wiley) 


在 模式 0 中 ， 宏 块 样 什 用 上 面相 邻 的 样 值 进行 预测 。 在 模式 1 中 ， 宏 块 样 值 用 
左 侧 相 邻 的 样 值 进行 预测 。 在 模式 2 中 ， 所 有 相 邻 样 值 的 均值 用 于 预测 。 模 式 3 沿 
左下 方向 对 角 线 进行 预测 。 模 式 4 沿 丰 下 方向 对 角 线 进行 预测 。 模 式 5 FEE EL A 
方向 。 模 式 6 是 水 平 向 下 方向 。 模 式 7 是 垂直 辐 左 方向 。 模 式 8 是 水 平 同 上 方向 。 
预测 值 是 利用 从 A 到 M 的 预测 值 的 加 权 平 均 计 算得 到 。 

在 FRExt 档次 中 ， 可 以 选用 8 x8 亮度 预测 ， 基 本 上 利用 与 4 x4 预测 相同 的 概 
念 。8 x8 亮度 预测 针对 8 x8 大 小 的 块 进行 ， 并 且 利 用 预测 需 的 低 通 滤波 融 来 改善 
预测 性 能 。 

对 于 亮度 分 量 的 16 x 16 帧 内 预测 ， 用 到 4 种 模式 ( 见 图 4.5)。 模 式 0 (Œ 
HL), 、 模 式 1 (水 平 ) 和 模式 2 (直流 ) 这 3 种 模式 类 似 于 4 x4 块 的 预测 模式 。 在 
第 4 种 模式 中 ， 相 邻 样 值 拟 合 了 线性 平面 函数 。 





























2( 直 流 ) 3( 平 面 ) 





























图 4.5 H.264 中 16 x16 亮度 预测 模式 〈 帧 内 预测 ) [B18] (2010 Wiley) 
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色 度 安 块 由 相 邻 色 度 样 值 进行 预测 。 用 于 色 度 块 的 4 种 预测 模式 类 似 于 16 x 16 
亮度 预测 模式 。 对 于 色 度 宏 块 ， 预 测 模式 的 序号 有 所 不 同 : 模式 0 是 直流 ， 模 式 
1 是 水 平 ， 模 式 2 是 垂下， 模式 3 是 平面 。 色 上 度 预测 的 块 大 小 取决 于 采样 格式 。 对 
于 4:2:0 格式 ,选择 8 x8 大 小 的 色 度 块 。 对 于 4:2:2 格式 ， 选 择 8 x 16 大 小 的 色 
度 块 。 对 于 4:4:4 格式 ， 选 择 16 x 16 大 小 的 色 度 块 [H23 ] 。 




















4.5 帧 间 预 测 


帆 间 预测 用 于 充分 利用 视频 序列 中 的 时 间 宛 余 。 时 间 相 关 性 通过 使 用 运动 估计 
和 补偿 算法 的 帧 间 预 测 得 以 降低 [H23 ] 。 一 幅 图 像 分 成 多 个 宏 块 ; 每 个 16 x 16 的 
宏 块 进一步 被 分 割 成 16 x 16, 16x8, 8x16, 8x8 大 小 的 块 。 一 个 8 x8 的 亚 宏 块 
可 被 进一步 分 成 8 x4、4 x8、4 x4 大 小 的 块 。 图 4. 6 所 示 为 一 个 宏 块 和 一 个 亚 宏 
块 的 分 割 情 况 [H7 ] 。 输 入 视频 的 特点 决定 了 块 的 大 小 。 较 小 的 块 大 小 保证 了 较 小 
的 残 差 数据 ;然而 ， 较 小 的 块 大 小 也 意味 者 更 多 的 运动 矢量 和 因此 和 带 来 编码 这 些 运 
动 天 量 所 需 的 更 多 的 比特 数 。[B18 ，H48 ] 。H. 264 文 持 直 到 1/4 RAR oP HES AY IS 
JRE ( 见 后 面 图 4.9)。 


à 16 g 8 
£2100 
16 1 


图 4.6 H. 264 中 帧 间 预 测 的 宏 块 分 割 [H3] (2003 IEEE) 
a) (L-R) 16x16、8x16、16 x8、8 x8 大 小 的 块 b) (L-R) 8x8、4x8、8 x4、4 x4 大 小 的 块 











4.6 了 分 片 中 安 块 的 帧 间 预 测 


H. 264 视频 编译 码 系统 使 用 基于 块 的 运动 补偿 ， 每 个 主要 视频 编码 标准 采纳 这 
个 同样 的 原则 。H. 264 提供 某 些 重要 的 区 别 ， 如 块 尺 寸 小 至 4 x4 和 亮度 分 量 中 亚 
像素 运动 矢量 细 化 到 1/4 像素 的 精度 [H44]. 

这 些 分 割 和 亚 分 割 在 每 个 宏 块 内 产生 大 量 的 可 能 组 合 。 这 种 把 宏 块 分 割 成 大 小 
不 同 的 运动 补偿 宏 块 的 方法 叫 作 树 形 结构 运动 补偿 。 分 割 的 选择 很 重要 ， 因 为 它 对 
于 压缩 性 能 具有 显著 影响 。 一 般 而 言 ， 对 于 一 帧 中 的 同 源 区 域 大 的 分 割 尺寸 是 合适 
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的 ， 对 于 非 同 源 区 域 小 的 分 割 尺 寸 可 能 是 有 益 的 。 选 择 大 的 分 割 尺 寸 (16 x 16, 
16 x8、8 x16 和 8 x8) 意味 着 只 需要 不 多 的 比特 表示 运动 矢量 和 分 割 类 型 的 选择 ; 
然而 ， 运 动 补 偿 残 差 可 能 包含 帧 区 域 中 丰富 细节 的 显著 的 能 量 。 选 择 小 的 分 割 尺 十 
(8x4, 4x8 和 4x4) 在 运动 补偿 后 可 能 给 出 较 低 的 能 量 残 差 但 需要 大 量 的 比特 
来 表示 运动 矢量 和 分 割 的 选择 [H44]. 

宏 块 (Cr 和 Ch) 的 每 个 色 度 分 量 的 分 辨 率 是 亮度 分 量 的 一 半 。 每 个 色 度 块 按 
照 与 亮度 分 量 相 同 的 方式 进行 分 割 ， 除 了 分 割 尺 寸 正 好 是 水 平和 垂直 分 辨 率 的 一 半 
之 外 。 亮 度 的 8 x 16 分 割 相 应 于 色 度 的 4 x8 分 割 [H44]. 


4.7 ” 亚 像素 运动 矢量 


帧 内 编码 宏 块 的 每 个 部 分 由 参考 帧 中 相同 大 小 的 区 域 来 预测 。 两 个 区 域 之 间 
的 偏 移 ， 即 运动 矢量 ， 对 于 亮度 分 量具 有 1/4 像素 的 精度 。 在 亚 像 素 运动 矢量 预 
测 中 ， 参 考 帧 没有 亚 像素 位 置 ， 所 以 有 必要 从 临近 的 图 像样 值 中 用 内 插 法 来 创建 
它们 [H44] 。 

亚 像素 运动 补偿 能 提供 明显 好 于 整数 像素 补偿 的 压缩 性 能 ， 但 是 增加 了 复杂 
BE, 1/4 像素 精度 性 能 优 于 半 像 素 精 度 [ H44 ] 。 在 亮度 分 量 中 ， 首 先生 成 半 像 素 
位 置 上 的 亚 像素 样 值 ， 而 且 用 一 个 六 抽 头 有 限 脉冲 响应 滤波 器 从 相 邻 的 整数 像素 样 
值 中 进行 内 插 。 图 4.7 和 4.8 示 出 了 用 来 获得 半 像 素 亮 度 样 值 的 预测 值 的 六 抽 头 滤 
波 器 的 权重 [B18] (1, -5, 20, 20，-5，1)Z32， 以 获得 更 尖锐 的 亚 像素 运动 
AME. 1/4 像素 运动 估计 通过 半 像 素 值 的 线性 内 插 获 得 ， 以 节约 处 理 功率 。 























图 4.7 亮度 半 像 素 位 置 上 的 内 捅 (2010 Wiley) 
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图 4.8 亮度 1/4 像素 位 置 上 的 内 搬 (2010 Wiley) 


这 意味 着 每 个 半 像 系 样 值 是 6 个 相 邻 整 效 像素 样 值 的 加 权 和 。 一 旦 可 以 得 到 所 
有 的 像 系 样 值 ， 每 个 1/4 像素 样 值 就 可 以 在 相 邻 的 半 像 素 或 整数 像素 的 样 值 上 用 双 
线性 内 插 来 产生 [H44]. 14.9 给 出 了 一 个 整数 像素 和 亚 像 系 预测 的 例子 。 当 前 
帧 内 4 x4 亚 分 割 区 域 可 以 从 参考 帧 的 相 邻 区 域 预测 。 如 果 运 动 矢 量 的 水 平和 垂 
直 分 量 都 是 整数 ， 那 么 参考 块 里 的 相关 样 值 确实 存在 ， 如 图 4. 9b 所 示 。 如 有 果 两 
个 天 量 分 量 或 者 其 中 之 一 是 分 数值 ， 那 么 预测 样 值 就 要 从 参考 帧 中 的 相 邻 样 值 中 
内 插 。 
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图 4.9 整数 和 亚 像 素 运 动 矢 量 ; H. 264 支持 高 达 1/4 像素 分 辨 率 的 
运动 矢量 [B18] (2010 Wiley) 


用 作 帧 间 预 测 的 参考 帧 是 以 前 解码 的 帧 ， 并 存储 在 帧 缓冲 融 中 。H. 264 支持 使 


用 多 帧 作为 参考 帧 。 这 是 通过 使 用 附加 的 与 运动 矢量 一 起 传输 的 帧 参考 参数 来 实现 
的 。 图 4. 10 中 参数 t 和 d 就 是 帧 参考 参数 。 





已 解码 帧 -参考 帧 要 被 编码 的 帧 











4.8 变换 与 量化 


对 一 个 残 差 样 值 块 用 4 x4 或 8 x 8 整数 变换 进行 变换 处 理 ， 这 是 一 种 离散 余弦 
变换 (DCT) 的 近似 形式 [B2 ] 。 离 散 余 弦 变 换 输 出 一 组 系数 ， 每 个 系数 是 标准 基 
函数 的 加 权 值 。 加 权 基 函 数 被 组 合 之 后 就 会 重建 残 差 样 值 块 。 

变换 的 输出 系数 要 按照 量化 参数 (QP) 进行 量化 。 量 化 降低 了 变换 系数 的 精 
度 。 量 化 参数 是 每 个 变换 系数 除 以 的 整数 值 。 

在 预测 误差 信号 中 存在 高 度 的 空间 宛 余 。H. 264 执行 基于 块 的 变换 以 降低 这 种 
空间 宛 余 [H23] 。 以 前 的 标准 MPEG-1 和 MPEG-2 使 用 二 维 离散 余弦 变换 (DCT) 
来 实现 大 小 为 8 x 8 块 变换 编码 的 目的 [H8]。H. 264 使 用 整数 变换 而 不 是 DCT. 
这 些 变换 的 大 小 是 4x4 [H8]. H. 264 中 使 用 较 小 块 尺寸 的 优势 如 下 所 述 : 

。 变换 尺寸 的 降低 使 得 编码 器 能 够 更 好 地 让 预测 误差 编码 适应 于 运动 对 象 的 
边界 ， 而 且 用 最 小 的 运动 补偿 块 尺寸 匹配 变换 块 尺寸 ; 

© 较 小 的 变换 块 尺寸 导致 振 铃 效应 的 明显 降低 ; 

。4 x4 变换 具有 不 需要 乘法 的 优势 。 

H. 264 使 用 了 分 级 的 变换 结构 ， 在 此 结构 中 亮度 信号 相 邻 4 x 4 变换 的 ( 见 
图 4. 11a) 直流 系数 被 分 成 4 x4 的 块 ， 而 且 由 哈达 玛 (Hadamard) 变换 进行 再 次 
变换 ( 见 图 4.11b)。 如 图 4.11a 所 示 ， 第 一 个 变换 (图 4.11f 的 和 矩阵 HI) 应 用 于 
所 有 亮度 分 量 CY) 预测 误差 块 的 样 值 以 及 所 有 的 色 度 分 量 (Cb 和 Cr) 块 。 对 于 
主要 是 平坦 像素 值 的 块 ， 在 相 邻 块 的 直流 系数 之 间 存 在 显著 的 相关 性 。 因 而 ， 标 准 
对 于 亮度 直流 系数 只 为 16 x16 帧 内 模式 规定 了 4 x4 的 哈达 玛 变 换 (图 4.11f 中 的 
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图 4.11 a) EH (f) 用 于 原始 (4x4) 像素 上 且 不 用 于 (4x4) 直流 系数 (b) [H7] 
b) 16 个 4 x4 亮度 块 的 直流 系数 [H7] (2003 IEEE) 
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图 4.11 (2%) c) 矩阵 H2 (f) (4x4 哈达 玛 变 换 ) 用 于 (4x4) 直流 系数 [H7] (2003 IEEE) 
d) 来 自 两 个 (8x8) 色 度 块 的 直流 系数 [H7] (2003 IEEE) 
e) FHM: H3 (£) (2 x2 哈达 玛 变 换 ) 用 于 色 度 直流 系数 (d) [H7] (2003 IEEE) 
f) 用 在 H. 264 中 三 个 变换 的 矩阵 HI 、H2 和 H3 (2004 IEEE) 


RE H2 ) ， 对 于 色 度 直流 系数 则 规定 了 2 x2 的 哈达 玛 变换 ， 如 图 4.11d fle 
(图 4.11f 中 的 和 矩阵 H3) 所 示 。 


4.9 环 路 去 块 效应 滤波 器 


环 路 去 块 效应 滤波 肯 (ILR 4.3) 用 来 去 除 因 基于 块 编码 模式 而 产生 的 块 效 
应 。 帧 内 预测 或 帧 间 预 测 之 后 的 变换 作用 在 块 上 ; 然后 变换 系数 要 经 过 量化 。 块 效 
应 要 归 答 于 这 些 基于 块 的 操作 ， 它 通过 使 用 环 路 去 块 效应 滤波 带 加 以 消除 。 它 减轻 
丁 块 边界 的 瑕 辛 ， 阻 止 了 蛇 积 误差 的 传播 。 然 而 滤波 人 的 存在 增加 了 系统 的 复杂 度 
[H50], B4. 12 描述 了 一 个 具有 16 个 4x4 子 块 的 宏 块 及 其 边界 。 

如 图 4. 12 所 示 ， 亮 度 去 块 效 应 滤波 过 程 在 16 个 样 值 边沿 上 执行 一 一 由 实 线 所 
示 。 色 度 去 块 效应 滤波 过 程 在 8 个 样 值 边 沿 上 执行 一 一 由 虚线 所 示 。 

H. 264 分 别 在 编码 硕 和 解码 融 中 逆 变 换 之 后 使 用 了 目 适 应 的 环 路 去 块 效应 滤波 
需 。 该 滤波 器 作用 于 每 个 解码 的 宏 块 以 降低 块 失 真 [B18 ] 。 在 编码 需 中 ， 在 重建 
和 存储 用 于 未 来 预测 的 安 块 之 前 ， 逆 变换 之 后 就 要 使 用 去 块 效应 滤波 毅 ; 在 解码 天 
中 ， 在 重建 和 显示 宏 块 之 前 使 用 该 滤波 带 。 渡 波 带 使 得 块 边沿 变 得 平滑 ， 改 善 了 解 
码 帧 的 显示 质量 。 因 为 滤波 之 后 的 帧 比 未 经 滤波 斑斑 驳 驱 的 帧 更 忠实 地 再 生 了 原始 
帧 ， 所 以 滤波 帧 用 于 未 来 帧 的 运动 补偿 一 般 来 说 都 可 以 改善 压缩 性 能 。 














16x16 宏 块 





垂直 边沿 ”垂直 边沿 
亮度 ) ( 色 度 ) 


图 4. 12 ”和 欲 被 滤波 的 安 块 边界 〈 腕 度 边 界 以 实 线 所 示 ， 色 度 边 界 以 虚线 所 示 ) 


去 块 效应 滤波 右 的 操作 可 被 分 成 三 个 主要 的 步骤 ,分 别 是 滤波 絮 强 度 计算 、 滤 
Serie FUR AYE a EM 


4.9.1 滤波 器 强度 


滤波 带 强 度 也 就 是 滤波 量 ， 在 参数 边界 强度 的 帮助 下 进行 计算 。 滤 波 带 的 边界 
强度 取决 于 当前 的 量化 带 、 突 块 类 型 、 运 动 拓 量 、 跨 越 边界 图 像样 值 的 梯度 、 以 及 
其 他 参数 。 对 于 4 x4 相 邻 块 之 间 的 每 个 边沿 ， 得 出 边界 强度 ; 而 且 对 于 每 个 边沿 ， 
赋予 边界 强度 参数 一 个 0 ~4 之 间 的 整数 值 。 在 可 能 存在 明显 块 失 真 的 地 方 诸如 帧 
内 编码 的 宏 块 边界 或 者 在 包含 编码 系数 的 块 边界 上 ， 滤 波 絮 是 比较 强 的 [H22]. 

除了 分 片 边界 的 边沿 外 ， 滤 波 过 程 作用 于 宏 块 内 块 的 垂直 和 水 平 边 沿 。 
图 4. 13 表 明 ， 安 块 级 的 滤波 顺序 是 对 亮度 分 量 的 4 个 垂直 边界 以 亮度 边沿 (VLE， 
Vertical Luminance Edge) VLE1, VLE2, VLE3 和 VLE4 的 顺序 进行 滤波 的 。 被 滤波 
的 亮度 分 量 水 平 边 治 (HLE, Horizontal Luma Edge ) 是 HLE1、HLE2、HLE3 和 
HLE4。 最 后 ， 垂 直 色 度 边 沿 (VCE, Vertical Chrominance Edge) VCE1 、VCE2 和 
水 平分 量 (HCE, Horizontal Chrominance Edge) HCE1 、HCE2 再 进行 分 别 滤波 。 并 
且 ， 滤 波 禹 也 有 可 能 改变 其 强度 或 者 关闭 滤波 船 。 

图 4. 14 示 出 了 滤波 操作 对 边界 两 侧 的 4 个 样 值 的 影响 。 相 邻 块 的 垂直 边沿 或 
水 平 边沿 的 4 个 样 值 是 p0、pl、p2、p3 和 gq0、ql、q2、q3 [H22]. 

H. 264 在 以 下 3 个 级 别 上 目 适 应 地 使 用 去 块 效应 过 程 : 

。 在 分 片 级 一 一 全 局 滤波 强度 调整 到 视频 序列 的 独 有 特征 ; 

© 在 块 边沿 级 一 一 去 块 效应 滤波 益 判 决 基 于 块 的 帧 间或 帧 内 预测 、 运 动 差 分 
和 两 个 相关 块 编码 残 差 的 出 现 ; 

。 在 样 值 级 一 一 区 别 块 效应 和 图 像 真实 的 边沿 是 很 重要 的 。 真 实 边 沿 不 应 该 
被 滤 除 掉 。 因 而 样 值 级 别 上 对 于 去 块 操作 的 判决 就 变 得 很 重要 了 。 
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亮度 水 平 边沿 1 
亮度 水 平 边沿 2 
亮度 水 平 边 沿 3 水 平 色 度 边沿 1 
亮度 水 平 边沿 4 水 平 色 度 边 沿 2 








亮度 垂 亮度 垂 亮度 重 EEE BAe EH 
直 边 沿 1 直 边 沿 2 直 边沿 3 直 边 沿 4。” 度 边沿 1 度 边沿 2 
16x16 亮 度 8x8 色 度 


图 4.13” 宏 块 的 边沿 滤波 顺序 [H22] (2006 IEEE) 


垂直 边沿 水 平 边沿 


Ed EE 





图 4.14 邻近 水 平和 垂直 边界 的 像素 [H22] (2006 IEEE) 


4.10 B 分 片 与 自 适 应 加 权 预 测 


过 去 和 未 来 帧 都 用 作 参 考 的 双向 预测 可 能 在 改善 时 域 预测 方面 是 非常 有 用 的 。 
H. 264 中 的 双向 预测 使 用 了 多 个 参考 帧 。 图 4. 15a 示 出 了 从 多 个 参考 帧 进行 的 双 回 
预测 。H. 264 ZARA B 帧 的 标准 使 用 双 回 模式 ， 限 于 容许 前 面 和 后 面 预测 信和 号 
的 组 合 。 在 以 前 的 标准 里 ， 一 个 预测 信号 从 后 面 的 帧 中 获得 ， 再 一 个 预测 信号 从 前 
面 的 帧 中 获得 ， 男 外 一 个 从 两 个 运动 补偿 预测 信号 的 线性 平均 信号 中 获得 。 

H. 264 支持 前 向 /后 向 预测 对 ， 也 支持 前 疝 / 前 向 和 后 向 /后 疝 预测 对 [ H23 ]。 
图 4. 15b 和 c 分 别 描述 了 双 癌 预测 和 多 参考 帧 的 方案 ， 因 而 宏 块 被 预测 为 多 个 参考 
诗 写 的 线性 组 合 ， 组 合 权 重 如 4.1 所 示 。 在 场景 改变 之 前 ， 考 虑 两 个 做 预测 的 前 癌 
参考 帧 对 于 一 个 区 域 的 运动 补偿 预测 是 有 益 的 。 而 在 场景 改变 之 后 ， 考 虑 两 个 后 问 
参考 帧 是 有 益 的 。H. 264 也 允许 双向 预测 编码 的 分 片 可 被 用 作 其 他 帧 帧 间 编 码 的 参 
Z. KRH. 264 之 外 ， 所 有 现存 标准 都 对 于 参考 帧 赋予 相同 的 权重 。 参 考 信 号 的 等 
值 权重 是 平均 分 配 的 ， 于 是 获得 预测 信号 。H. 264 也 用 到 加 权 预 测 | H23 ] 。 它 可 
WHE P 分 片 或 B 分 片 的 宏 块 。 不同 的 权重 可 被 指定 给 两 个 不 同 的 参考 信号 ， 预 
测 信号 计算 如 下 : 






































p=w, Xr, +W, XT, (4.1) 














c) 
图 4.15 双向 预测 
a) 双向 预测 b) 双向 模式 〈 带 有 过 去 和 未 来 宏 块 预测 信号 的 线性 组 合 ) 
c) 多 参考 帧 模式 ( 禹 有 两 个 过 去 宏 块 预测 信号 的 线性 组 合 ) 


4.11 AtB 


视频 编码 过 程 的 最 后 一 步 是 炉 编 码 。 信 编 码 基 于 如 下 原则 :将 较 短 码 字 赋 予 出 
现 概率 较 高 的 符 写 ， 即 那个 较 长 码 字 赋予 出 现 概 率 较 低 的 符号 。 要 进行 烂 编码 的 部 
分 参数 包括 残 差 数据 的 变换 系数 、 运 动 矢 量 以 及 其 他 编码 带 人 信息。 标准 已 经 采纳 了 
两 种 类 型 的 炉 编 码 。 第 一 种 方法 以 通用 变 长 编码 (UVLC，Universal Variable Length 
Coding) 和 自 适 应 变 长 编码 (CAVLC, Context Adaptive Variable- Length Coding) 为 
代表 。 第 二 种 方法 以 基于 上 下 文 自 适 应 二 进 制 算术 编码 为 (CABAC, Context- Based 
Adaptive Binary Arithmetic Coding) 代表 。 

H. 264 人 码 流 或 H. 264 文件 包括 一 系列 编码 符号。 这 些 符 号 组 成 语法 ， 包 括 参 
数 、 标 识 竺 和 、 定 界 码 、 预 测 类 型 、 差 分 编码 的 运动 天 量 和 变换 系数 。 瓦 264/ 
AVC 标准 对 于 编码 符号 规定 了 几 种 方法 ， 即 把 每 个 符号 转换 成 二 进 制 形 式 作 为 人 码 
流 的 一 部 分 进行 传输 或 存储 。 这 些 方法 如 下 : 

定 长 码 : 符号 转换 成 一 个 具有 规定 长 度 (nbit) 的 二 进 制 码 ， 每 个 码 字 长 度 固 
定 。 在 定 长 编码 方法 中 ， 只 有 对 于 大 块 的 数据 才 可 能 实现 数据 压缩 ， 任 何 超 越 概 率 
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总 数 的 对 数 的 压缩 都 会 以 一 个 有 限 的 概率 遭 致 失败 。 

指数 哥伦布 变 长 码 [B18]: 符号 表示 为 一 个 比特 数 不 同 的 指数 哥伦布 码 字 。 
总 的 说 来 ， 较 短 的 指数 哥伦布 码 字 赋 予 出 现 较为 频繁 的 符号 。 

CAVLC (上 下 文 自 适应 变 长 编码 ) : 上 下 文 自 适 应 变 长 编码 使 用 上 下 文 自 适 应 
性 ， 是 一 种 为 变换 系数 专门 设计 的 方法 。 其 中 ， 选 择 不 同 的 变 长 码 集 取 决 于 最 近 编 
码 系数 的 统计 分 布 。 

在 预测 、 变 换 和 量化 之 后 ， 块 一 般 都 是 稀 玻 的 ， 经 稼 包括 的 大 部 分 是 零 。 
CAVLC 利用 游程 编码 来 紧凑 地 表示 连续 的 零 囊 。 块 扫描 之 后 最 高 的 非 零 系数 各 党 
是 +1 的 序列 ， 且 CAVLC 给 出 高 频 系 数 个 数 。 相 邻 块 非 去 系数 的 个 数 具 有 相关 性 。 
系数 个 数 采 用 查 表 法 进行 编码 ， 所 查 表 的 选择 取决 于 相 邻 块 非 零 系数 的 个 数 。 非 零 
系数 的 幅 值 在 扫描 移 阵 的 起 始 位 置 (靠近 直流 系数 ) 趋 于 增 大 ， 而 在 较 高 频率 附 
近 趋 于 减 小 。 

H. 264 基于 上 下 文 特点 用 变 长 编码 来 将 一 个 符号 与 一 个 码 字 进行 匹配 。 除 了 残 
差 数 据 之 外 ， 所 有 的 语法 元 素 都 用 指数 哥伦布 码 进行 编码 [H23 ] 。 残 差 数 据 用 
CAVLC 进行 编码 。 

经 过 变换 和 量化 之 后 ， 系 数 的 幅 值 是 0 或 +1 的 概率 是 非常 高 的 [H23]。CAVLC 
对 这 些 值 区 别 对 待 。 它 对 0 A +1 编码 它们 的 个 数 。 对 于 其 他 值 ， 是 编码 它们 的 值 。 

1) 没有 块 末 尾 ， 而 是 系数 的 个 数 要 进行 解码 ; 

2) 向 后 扫描 系数 ， 上 下 文 依据 编码 系数 而 建立 ; 

3) 变换 系数 以 下 列 元 素 进行 编码 : 非 去 系数 个 数 、 所 有 非 零 系 数 的 幅 值 和 符 
、 在 最 后 非 零 系 数 之 前 的 零 的 总 数 、 以 及 在 最 后 非 去 系数 之 前 的 连 零 的 个 数 ; 
4) 所 用 的 变 长 码 表 基于 相 邻 块 系数 个 数 进 行 目 适应 地 选择 。 

CABAC (上 下 文 自 适应 的 二 进 制 算术 编码 ) : 上 下 文 自 适应 二 进 制 算 术 编 码 
[B18] 是 一 种 算术 编码 方法 ， 其 中 的 概率 模型 基于 前 面 的 编码 统计 数据 进行 更 新 。 
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CABAC Æ ERA ey SE PY E SEK, CABAC 通过 一 些 措施 实现 很 
好 的 压缩 性 能 : 

(a) 按照 元 素 的 上 下 文 来 为 每 个 语法 元 素 选 择 概率 模型 。 

(b) 基于 局 部 统计 数据 调整 概率 估计 。 

(c) 使 用 算术 编码 而 不 是 变 长 编码 。 

图 4. 16 示 出 了 CABAC 的 总 图 [Hll]。 编 码 一 个 数据 符号 包括 如 下 几 步 . 


更 新 概率 估计 
概率 估计 编码 引擎 


自 适应 二 进 制 算术 编码 器 








图 4.16 CABAC 的 示意 框图 [H11] (2004 SPIE) 


100 视频 编码 全 角度 详解 








二 值 化 : CABAC 使 用 二 进 制 算术 编码 ， 这 意味 着 只 对 二 进 制 判决 符 (1 或 0) 
进行 编码 。 非 二 进 制 的 数值 符号 要 先 于 算术 编码 之 前 转换 成 一 个 二 进 制 码 。 

上 下 文 模型 选择 : “上 下 文 模型 ”是 二 值 化 符号 的 一 个 或 多 个 比特 的 概率 模 
型 ， 它 依据 最 近 编 码 的 数据 符号 的 统计 分 布 从 可 用 的 模型 中 进行 选择 。 

算术 编码 : 算术 编码 融 按 照 所 选 的 概率 模型 对 每 个 bin 进行 编码 。 注 意 ， 只 有 
两 个 子 范 围 值 1 或 0。 

概率 更 新 : 所 选 的 上 下 文 模型 基于 实际 编码 值 进行 更 新 。 

1) 对 于 大 多 数 符号 使 用 目 适 应 概率 模型 ; 

2) 通过 使 用 上 下 文 利用 符号 相关 性 ; 

3) 通过 在 二 进 制 序 列 中 的 位 置 区 别 二 进 制 判决 符 ; 

4) 通过 查 表 法 实现 概率 估计 。 























4.12 H. 264 解码 器 


H. 264 解码 器 在 操作 上 的 允许 类 似 于 H. 264 编码 器 的 本 地 解码 器 。 解 码 完 全 
就 是 编码 的 相反 过 程 。 视 频 解 码 器 接收 到 H. 264 的 压缩 码 流 ， 对 语法 元 素 进 行 解 
码 ， 抽 取 量 化 的 变换 系数 、 预 测 信息 等 。 这 些 数据 用 于 重建 视频 序列 。 在 比特 流 上 
DEAT AAS (CABAC 或 CAVLC) 以 获得 变换 系数 。 然 后 ， 这 些 系数 进行 逆 扫 描 和 
逆 量 化 〈 量 化 的 变换 系数 乘 以 量化 参数 。 量 化 参数 是 一 个 整数 值 ) 。 这 一 步 给 出 了 
变换 域 上 的 残 差 数据 块 。 再 进行 逆 变 换 来 获得 像素 域 上 的 数据 。 变 换 系 数 被 再 次 缩 
放 之 后 ， 逆 变换 将 标准 基 消 数组 合 起 来 ， 被 再 缩放 系数 加 权 ， 来 重建 每 一 块 的 残 差 
数据 。 这 些 块 组 合 到 一 起 就 形成 了 残 差 数 据 宏 块 。 对 于 每 个 宏 块 ， 解 码 器 进行 与 编 
码 器 创建 的 完全 相同 的 预测 。 依 据 帧 间 预 测 或 帧 内 预测 ， 把 适当 的 预测 信号 加 到 残 
差 信号 上 去 。 这 个 预测 块 加 到 残 差 块 上 来 重建 视频 帧 。 这 些 重 建 帧 在 存储 起 来 用 作 未 
来 的 预测 之 前 或 者 被 显示 之 前 ， 都 要 进行 去 块 效应 处 理 。 














4. 13 H.264 的 一 些 应 用 





RGB Spectrum (一 家 美国 公司 一 一 译 者 注 ) 的 DSx H. 264 编译 码 系统 [H52] 
能 提供 极 好 的 图 像 质 量 ， 能 无 瑕 病 地 编码 实况 视频 和 图 形 并 把 他 们 通过 加 密 的 
SATCOM 卫星 通信 从 太平 洋 导 弹 测 试 场 传输 到 Colorado Spring, Colorado 和 Hunts- 
ville, Alabama 和 其 他 华盛顿 特区 以 外 的 地 方 。 然 后 ,存储 该 码 流 以 备 进一步 的 系 
统 性 能 、 目 标 获取 精度 和 目标 毁坏 性 的 后 续 测 试 分 析 。 

DSx 编译 码 系统 的 优势 是 ， 使 用 了 H. 264 高 档次 这 一 高 端的 压缩 技术 来 传送 相 
比 于 传统 主 档次 和 基本 档次 更 好 的 图 像 质量 。 这 种 优越 的 压缩 能 力 保 持 了 包含 在 导 
弹 测试 影像 中 的 复杂 细 市 。 
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DSx 编译 码 系统 以 每 秒 30 帧 的 实时 速率 、 高 达 1920 x 1080 的 分 辨 率 对 视频 和 
图 形 影 像 进行 编码 。 操 作 员 在 一 台 PC 机 上 使 用 基于 网 络 的 图 形 用 户 界面 (GUI) 
对 DSx 编译 码 系统 进行 控制 。 该 编译 码 系统 提供 带 有 标题 和 精度 时 间 码 的 屏幕 显 
示 ， 这 是 藤 入 在 影像 流 之 内 的 。 码 流 带宽 从 64kbit/s ~ 1OMbit/s 可 调 ， 取 决 于 信号 
类 型 。 











4.14 BE 


本 章 概 括 了 H. 264 编译 码 系统 的 编码 工具 。H. 264/AVC 工程 的 意图 是 建立 一 
个 标准 ， 使 其 能 够 在 大 大 低 于 以 前 标准 的 比特 率 (EI MPEG-2、H. 263 或 MPEG-4 
第 2 部 分 的 一 半 或 更 低 的 比特 率 ) 上 提供 好 的 视频 质量 ， 而 没有 增加 设计 的 复杂 
度 以 避免 它 不 实用 或 实现 代价 过 分 高 昂 。H. 264 标准 可 以 看 作 是 一 个 “标准 之 
家 ”， 其 中 的 成 员 是 表 4. 3 所 描述 的 各 个 档次 。H. 264/AVC 的 附加 部 分 如 可 伸缩 视 
频 编 码 (SVC) 和 多 视点 视频 编码 没有 讨论 。 下 一 章 陈 述 了 最 新 的 标准 一 一 高 效 视 
频 编 码 (HEVC)， 它 在 压缩 比 和 视觉 质量 方面 甚至 比 H. 264/ AVC 更 加 有 效 。 

表 4.3 H.264 定义 的 级 别 [H11] 
JE FRExt 档次 中 最 大 压缩 。 ”典型 图 像 尺 寸 的 

















mja ee 
级 别 号 典型 的 图 像 尺寸 典型 的 帧 率 比特 率 (对 VLC) 最 大 参考 帧 数 
1 QCIF 15 64kbit/s 4 
lb QCIF 15 128kbit/s 4 
1.1 CIF 或 QCIF 7. 5 ( CIF0)/30( QCIF) 192kbit/s 2( CIF) /9( QCIF) 
1.2 CIF 15 384kbit/s 6 
1.3 CIF 30 T68kbit/s 6 
2 CIF 30 2Mbit/s 6 
2.1 HHR (480i 或 576i) 30/25 4Mbit/s 6 
2.9 SD 15 4Mbit/s 5 
3 SD 30/25 10Mbit/s 5 
3.1 1280 x720p 30 14Mbit/s 5 
3.2 1280 x720p 60 20Mbit/s 4 
4 HD 格式 (720p 或 1080) 60p/30i 20Mbit/s 4 
4.1 HD 格式 (720p 或 1080i) 60p 50Mbit/s 4 
4.2 1920 x 1080p 60p SOMbit/s 4 
5 2k x 1k 72 135Mbit/s 5 
5.1 2kxlk 或 4kx2k 120/30 240 Mbit/s 5 


半 水 平分 辨 率 (HHR: Half- horizontal resolution) (2004 SPIE) 
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4.15 


P. 4. 1 


P. 4.2 
P. 4.3 
P. 4.4 


P. 4.5 


P. 4.6 


P. 4.7 


P. 4.8 


P. 4.9 





专题 研究 


EMEF, JM7.2, Intel IPP 和 x264 的 性 能 分 析 和 对 比 中 ， 提 供 了 实现 
H. 264 的 软件 。 对 于 基本 档次 、 主 档次 和 高 档次 ， 比 较 参 数 是 SSIM、 
PSNR、 总 的 编码 时 间 、 和 压缩 比 。 附 录 表 明 ，Intel IPP 和 x264 的 编码 时 
间 显 著 低 于 JM17. 2。 请 使 用 各 种 标准 测试 序列 来 实现 H. 264 的 Intel IPP, 
x264 和 JM (最 新 版 本 ) 并 获得 基本 档次 、 主 档次 和 高 档次 的 类 似 性 能 
分 析 。 

使 用 FFmpeg 软件 重复 P. 4. 1 。 

对 于 4:2:2 和 4:4:4 的 视频 格式 重复 P. 4.1 和 P.4.2。 

请 从 UTA 网 址 - courses EE5359 一 >theses 访问 Madhu Peringassery Krishnan 的 
ZAL (Implementation and performance analysis of 2- D order 16 integer 
transforms in H. 264/AVC and AVS- video for high definition video coding) 。 

H. 264 和 AVS- China 中 用 于 SICT 和 MICT 的 16 阶 变换 矩阵 分 别 如 论文 的 
65 页 和 70 页 所 示 。 请 开发 这 些 变换 快速 实现 的 流 图 。 

binDCT-L 也 实现 了 。H. 264 和 AVS-China (第 3 章 ) 实现 的 时 候 ， 对 于 不 
同 的 测试 序列 在 各 种 量化 参数 下 都 仍 和 人 了 这 些 逆 变 换 。 请 实现 这 些 操作 并 
获得 类 似 与 这 篇 论文 所 示 的 那些 比较 结 

请 开发 更 高 阶 的 2 AE ICT (32 x32 和 64 x64)。 这 些 是 由 HEVC 提出 的 
(第 5 前)。 请 用 高 清和 超 高 清 测 试 序列 把 这 些 租 入 到 H. 264 和 AVS China 
中 并 进行 类 似 于 Madhu Krishnan 论文 所 示 那 样 的 性 能 对 比 。 

在 Santosh Muniyappa 的 学 位 论文 ( 见 UTA 网 址 ) 中 ,实现 了 H. 264/AVC 
中 帧 内 模式 选择 的 复杂 度 降 低 算法 。 使 用 简单 的 方向 掩 模 和 相 邻 模式 ， 模 
式 组 合 数 从 592 减少 到 至 多 132 (RDO 计算 )。 论文 使 用 了 QCIF 和 CIF 格 
式 的 视频 序列 。 请 将 这 个 复杂 度 降 低 算法 推广 到 其 他 视频 格式 ， 诸 如 4SIF 
和 HD。 

从 UTA 网 址 访问 Amruta Kulkarni 的 学 位 论文 “Fast inter- prediction mode 
decisionalgorithm for H. 264 video encoder” 。 由 于 使 用 了 一 种 快速 的 自 适 应 终 
止 模 式 选 择 算法 ， 它 能 够 显著 降低 编码 右 的 实现 时 间 (与 JM 17.2 参考 软 
件 相 比 ) ,伴随 着 可 忽略 的 视频 质量 和 极 小 的 比特 紊 提高。 她 使 用 了 
H. 264 基本 档次 中 QCIF 和 CIF 格式 的 视频 序列 。 请 通过 使 用 快速 自 适 应 终 
IE (FAT) 算法 来 确认 降低 的 实现 复杂 度 (使 用 不 同 的 视频 测试 序列 ) 。 

对 主 档次 和 高 档次 重复 P.4.7。 注 意 ， 在 这 些 档次 中 也 有 (双向 内 插 ) B 
帧 。 这 使 得 在 H. 264 PRH FAT 算法 甚至 更 为 复杂 。 

请 用 QCIF 和 CIF 格式 对 基本 档次 将 Muniyappa 开发 的 H. 264/AVC 中 用 于 
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帧 内 模式 选择 的 复杂 度 降 低 算法 ， 和 Kulkarni 采用 的 FAT 算法 (H. 264 视 
频 编 码 右 的 快速 帧 内 预测 模式 判决 算法 ) 组 合 起 来 ， 并 评价 H. 264/AVC 
编码 器 在 实现 复杂 度 方面 降低 的 情况 。 请 在 不 同 的 比特 率 下 使 用 多 种 测试 
序列 。 

P. 4. 10 ”请 用 标清 和 高 清 序列 对 主 档次 和 高 档次 重复 P. 4. 9。 

P.4.11 请 从 UTA 网 址 访问 Shreyanka Subbarayappa 的 学 位 论文 “Implementation 
and analysis of directional discrete cosine transform ( DDCT) in H. 264 baseline 
profile” 尽管 在 H. 264 中 采用 方向 DCT 导致 编码 时 间 的 显著 增加 ， 但 回 
报 是 改善 了 图 像 质 量 (SSIM、PSNR ) 。 请 在 各 种 比特 率 下 使 用 不 同 的 测 
试 序列 来 实现 H. 264 中 的 DDCT。 

P. 4. 12 ”对 主 档 次 和 高 档次 重复 P. 4. 11 。 

P.4.13 Shreyanka ( 见 P.4.11) 只 是 在 I 帧 中 实现 了 DDCT。 在 第 4 章 ， 考 虑 到 不 
同 的 方 回 模式 示 出 了 4 x4 和 8 x8 块 的 基 元 图 像 。 请 开发 出 这 些 基 元 图 
像 。 对 所 有 关于 (4x4) 和 (8x8) DDCT 的 方向 模式 ， 获 得 这 些 基 元 
图 像 。 模 式 4、6、7 和 把 可 以 从 模式 3 和 5 获得 ， 如 论文 所 示 。 请 将 这 种 
方法 用 于 获得 基 元 图 像 。 

P.4.14 请 从 UTA 的 网 址 访问 工 Purushotham 的 学 位 论文 “Low complexity encoder 
using machine learning”。 基 于 仅仅 4 帧 的 训练 ， 利 用 QCIF 和 CIF 测试 序 
列 ， 基 本 档次 的 运动 估计 时 间 平 均 下 降 42. 86% ,编码 时 间 平 均 下 降 
23. 5% 。 论 文 只 用 到 帧 间 亚 宏 块 (8 x8、8 x4、4 x8 和 4x4) 模式 判 
决 。 请 将 这 一 方法 推广 到 所 有 的 宏 块 模式 ， 也 就 是 说 包括 16x16, 16x8 
和 8 x16 的 块 。 也 要 基于 100 帧 的 训练 而 不 是 仅仅 4 帧 来 重复 该 仿真 。 

P. 4.15 请 用 标清 和 高 清 测试 序列 对 主 档 次 和 高 档次 重复 P. 4. 14。 

P.4.16 Veerla (SUBSE F) 开发 了 将 H.264 Fil JPEG 组 合 到 一 起 的 先进 图 像 编 码 
(AIC, Advanced Image Coding), AIC 与 H. 264 的 帧 内 编码 和 其 他 项 止 图 
像 编 码 标准 进行 了 比较 ， 这 些 标准 如 JPEG, JPEG-LS, JPEG2000 #11 JPEG 
XR (高 清 照 片 ) 。 将 SSIM (附录 C) PSNR, MSE 和 计算 时 间作 为 测度 ， 
在 不 同 的 比特 率 上 用 一 些 测试 图 像 进行 了 仿真 。 与 其 他 编码 标准 相 比 ， 
AIC 性 能 良好 且 降 低 了 实现 复杂 度 。 请 重复 这 些 仿真 (使 用 一 些 其 他 测试 
图 像 )。 参 考 文献 中 提供 了 各 种 图 像 编 码 标准 实现 软件 (免费 软件 ) 的 获取 
途径 。 这 可 作为 一 个 小 组 专题 研究 ， 不 同 的 学 生来 实现 不 同 的 标准 (JPEG, 
JPEG- LS、JPEG2000 、JPEG- XR、H. 264 帧 内 编码 和 微软 HD- photo)。 

P.4.17 C. Deng 等 人 对 H. 264/AVC FREXT 加 入 了 进一步 的 扩展 ,例如 更 大 的 运 
动 拓 量 搜索 范围 、 更 大 的 宏 块 和 跳 过 块 尺寸 以 及 I-D DDCT。 他 们 利用 高 
分 辨 率 (HR) (4096 x2160) 视频 序列 与 运动 JPEG2000 进行 了 性 能 对 
比 ， 结 果 表 明 ， 在 各 种 比特 率 上 前 者 的 PSNR 得 到 显著 改善 。 请 用 HR 测试 
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P. 4. 18 


P. 4. 19 
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序列 实现 扩展 的 H. 264 和 运动 JPEC2000 并 证 实 前 者 具有 优越 的 性 能 。 
C. Deng 等 , “Performance analysis, parameter selection and extension to H. 264/ 
AVC FREXT for high resolution video coding” , J. VCIR, vol. 22, pp. 687-760, 
Feb. 2011. 

通过 加 入 一 些 额 外 的 特征 诸如 扩展 的 块 尺寸 (直到 64 x64)、 帧 内 编码 中 
模式 相关 的 方向 变换 (MDDT) 、 亮 度 和 色 度 的 高 精度 滤波 、 目 适应 系数 
扫描 、 扩 展 的 块 尺寸 分 割 、 目 适应 环 路 滤波 、 大 尺寸 整数 变换 每 ，Kare- 
zewicz 等 人 提出 了 一 种 优 于 H. 264/AVC 的 混合 视频 编译 码 系统 。 通 过 在 
不 同 的 空间 分 辨识 上 使 用 几 种 测试 序列 ， 他 们 发 现 ， 在 主观 质量 和 客观 
指标 方面 新 编译 码 系统 性 能 均 优 于 传统 的 H. 264/AVC。 这 一 些 系统 也 需 
要 在 编码 益 和 译 人 码 冀 的 复杂 度 方面 有 适度 的 增加 。 请 实现 该 新 编译 人 码 系 
统 并 获得 类 似 与 这 篇 文章 描述 的 结果 。 也 将 SSIM 作为 在 所 有 仿真 中 的 另 
一 个 性 能 指标 。 使 用 最 新 的 H. 264 JM 软件 。“A hybrid video coder based 
on extended macroblock sizes, improved interpolation, and flexible motion 
representation” , IEEE Trans. CSVT, vol. 20, pp. 1698-1708, Dec. 2010. 

在 文档 JCTVC- G399 12 F, Bin Li 比较 了 HEVC WD4 (第 5 章 ) All AVC 
高 档次 的 压缩 性 能 。 他 在 不 同 的 比特 率 下 基于 几 个 测试 序列 用 HEVC 
WD7 和 最 新 的 H. 264 软件 JM 进行 了 对 比 。 如 同 以 前 ， 性 能 指标 为 SSIM, 
PSNR 、 比 特 率 和 实现 复杂 度 。 瑞 士 日 内 瓦 第 7 届 JCT- VC 会 议 ，2011 年 
11 月 21~30 日 (HEVC 与 AVC 高 档次 压缩 性 能 对 比 的 工作 草案 ) 。 
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摘要 : 本 章 给 出 了 HEVC 这 一 最 新 的 标准 ， 引 用 了 与 H.264/AVC (第 4 章 ) 
的 对 比 情 况 。 重 点 是 HEVC 的 概述 而 不 是 构成 编码 器 工具 和 方法 的 详细 描述 。 最 
好 ， 列 出 了 许多 研究 专题 挑战 有 关 HEVC 的 实现 和 进一步 的 研究 。 

关键 词 HEVC JCTVC 统一 的 帧 内 预测 编码 树 单 元 预测 单元 变换 单 
元 SAO ( 样 值 自 适 应 偏 移 ) 系数 扫描 HM 软件 无 损 编码 





5.1 5| 言 


本 章 详 细 说 明了 由 视频 编码 联合 协作 团队 (JCT- VC) 完成 的 HEVC 的 制订 。 


5.2 ”视频 编码 联合 协作 团队 


视频 编码 联合 协作 团队 是 一 个 视频 编码 专家 组 ， 这 些 专 家 来 自 ITU-T 第 16 WRH 
(VCEG) 和 1ISO/AIEC JTC 1/SC 29/WG 11 (MPEG) ， 建 立 该 专家 组 是 为 了 制订 新 一 代 的 
视频 编码 标准 ， 该 标准 与 目前 最 先进 的 AVC 标准 (ITU-T Rec. H. 264 | ISO/TEC 
14496-10) 相 比 ， 将 进一步 降低 高 质量 视频 编码 所 需 数据 率 的 50% 。 这 个 编码 标准 
化 新 方案 叫 作 高 效 视频 编码 (HEVC, High Efficiency Video Coding), 7E ISO/IEC 
中 ， 它 叫 作 MPEG- H 第 2 部 分 。 

ITU-T 推荐 草案 H. 264 | ISO/IEC 14496-10, 通常 称 为 H. 264/MPEG- 4AVC, 
H. 264/AVC, 或 MPEG-4 第 10 部 分 AVC (第 4 章 ) 已 经 发 展 成 为 一 种 JVT 内 部 的 
联合 活动 。 各 种 视频 编码 标准 的 演化 如 图 5. 1 所 示 。 

JCT- VC 由 Jens- Rainer Ohm 和 Gary Sullivan 联合 主持 ， 他 们 的 联系 信息 如 下 
提供 。 








JCT- VC 的 ITU-T 联 系 信息 会 议 





Cary Sullivan 先生 

大 会 报告 起 草 人 ， 视 觉 编码 
问题 6，ITU-T 第 16 研究 组 
电话 : +1 425 703 5308 
传真 ，+1 425 936 7329 














2013 年 10 月 ， 瑞 士 日 内 瓦 

2013 年 7 月 27 日 -8 月 2 日， 奥地利 维也纳 
2013 年 4 月 20-26 日 ， 韩 国 仁川 
2013 年 1 月 14-23 H, 瑞士 日 内 瓦 











Email; garysull@ microsoft. com 








JCT- VC 的 ITU-T 联 系 信息 会 议 





Thomas WIEGAND 先生 

大 会 报告 副 起 草 人 ， 视 觉 编 码 
问题 6，ITU-T 第 16 研究 组 
电话 : +49 30 31002 617 
传真 ，+49 30 392 7200 














Emmail :， thomas. wiegand@ microsoft. com 


JCT- VCd 的 ISO/IEC 联系 信息 


























Jens- Rainer OHM 先生 Gary SULLIVAN 先生 

大 会 报告 起 草 人 ， 视 觉 编码 大 会 报告 起 草 人 ， 视 觉 编 码 
问题 6，ITU-T 第 16 研究 组 问题 6，ITU-T 第 16 研究 组 
电话 : +49 241 80 27671 电话 : +1 425 703 5308 
Email: ohm@ ient. rwth- aachen. de 传真 ， +1 425 936 7329 








Email; garysull@ microsoft. com 
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图 5.1 视频 编码 标准 (RSE INA WINS Sepik tA LEAN 
圣 菲 利 波 家 族 讲 席 教 授 ，Nam Ling 博士 ) [E21], 


另外 的 信息 可 以 从 http://www. itu. int/en/ITU- T/studygroups/com16/video/Pages/ 
jctvc. aspx 获得 。 

JCT- VC 在 2010 年 发 出 联合 征集 提案 的 请 求 [Q20]. 

。 提交 了 27 份 完 整 的 提案 (有 些 是 多 个 组 织 联 名 的 ) ; 
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。 每 份 提案 都 是 一 个 重要 的 资料 包 一 一 许多 编码 视频 、 大 量 的 文档 、 提 交 的 
大 量 性 能 指标 、 有 时 候 还 有 软件 等 ; 

。 大 量 的 主观 测试 (3 个 测试 实验 室 、4200 个 评估 视频 剪辑 、850 个 人 类 主 
观 个 体 、300 ，000 个 分 数 ) ; 

e 建议 视频 的 质量 与 AVC (ITU-T Rec. H. 264 或 ISO/IEC 14496-10) 销 固 编 
码 结果 相 比较 ; 

。 发 布 的 测试 报告 JCTVC- A204 |/N11775; 

。 在 某 些 情况 下 ， 以 AVC (H. 264) 一 半 的 比特 率 提供 可 比拟 的 质量 ; 

o 源 视频 序列 按 视频 分 辨 率 从 四 分 之 一 WVGA (416 x240) 到 大 小 为 2560 x 
1600 的 视频 分 成 五 类 ， 后 者 裁 切 自 4k x2k 的 以 8bpp 渐进 扫描 的 YCbCr 格式 超 高 
清 (UHD: ultra HD) 视频 ; 

e 在 “随机 访问 ”(1s) 和 “ 低 时 延 ”( 没 有 帧 的 重 排序 ) 条 件 下 都 进行 了 测 
in, (R51), 

图 5.2 和 网 5. 3 给 出 了 在 所 有 测试 视频 上 的 平均 结果 ; 其 中 ， 第 一 幅 图 ( 见 
图 5.2) 表示 在 随机 访问 限制 条 件 下 的 平均 结果 ,第 二 幅 图 ( 见 图 5.3) 表示 在 低 
时 延 限制 条 件 下 的 平均 结 

这 些 结果 基于 11 个 等 级 ，0 表示 最 坏 而 10 表示 最 好 的 个 人 质量 衡量 。 图 中 除 
了 每 个 平均 意见 得 分 (MOS) 数据 点 之 外 ， 还 有 95% 的 置信 区 间 。 

测试 之 后 所 执行 的 更 为 详细 的 分 析 表 明 ， 在 相当 数量 的 情况 下 性 能 最 好 的 建议 
在 约 一 半 锚 固 比特 率 下 表现 出 类 似 与 AVC 锚固 类 似 的 质量 [E23, E59, E97], 

2010 年 四 月 15-23 日 ， 在 德国 德 累 斯 顿 召 开 首 届 JCT- VC 会 议 上 进行 了 对 于 所 
提交 方法 的 技术 评估 。 评 估 表 明 ， 所 有 的 提交 算法 都 基于 传统 的 混合 编码 方法 ， 综 
合 了 视频 帧 间 的 运动 补偿 预测 、 帧 内 预测 、 环 路 滤波 的 闭环 操作 、 空 间 残 差 信号 的 
2D 变换 、 和 先进 的 自 适 应 烂 编 码 组 合 。 


表 5.1 用 于 CfP 中 的 测试 类 和 比特 率 (限制 ) 





























类 xl 比特 率 1 比特 率 2 比特 率 3 比特 率 4 ”比特 率 5 (Mbit/s) 
A; 2560 x 1600p30 2. 5Mbit/s 3. SMbit/s 5 Mbit/s 8Mbit/s 14 
B1: 1080p24 1 Mbit/s 1. 6Mbit/s 2. SMbit/s 4Mbit/s 6 
B2: 1080p50-60 2Mbit/s 3Mbit/s 4. 5Mbit/s 7Mbit/s 10 
C: WVGAp30-60 384kbit/s 512kbit/s 768kbit/s 1. 2Mbit/s 2 
D: WQVGAp30- 60 256kbit/s 384kbit/s 512kbit/s 850kbit/s ie 
E: 720p60 256kbit/s 384kbit/s 512kbit/s 850kbit/s 1.5 


作为 回 协 作 迈 进 的 一 个 初始 步骤 ,产生 了 测试 模型 讨论 稿 (TMuC Test Model 
under Consideration) ， 该 文档 兼 有 从 七 个 高 性 能 提案 中 识别 出 的 关键 元 素 。 这 首 个 





随机 访问 约束 下 的 平均 MOS 
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图 5.2 随机 访问 编码 条 件 下 所 有 视频 类 上 的 MOS 结果 总 体 平均 [ES | 


低 时 延 约 束 下 的 平均 MOS 

















图 5.3 所 有 类 别 在 低 时 延 编码 条 件 下 的 MOS 总 体 平均 [ ES ] 


TMuC 成 为 首次 软件 实现 的 基础 ， 在 它 的 制订 之 后 已 经 开始 能 够 进行 针对 所 含 编码 
工具 和 附加 工具 更 加 严格 的 评估 ， 这 些 工 具 在 首届 JCT- VC 会 议 计划 的 “工具 试 
ir” (TE, Too Experiments) 过 程 里 要 进行 研究 。 

由 于 引入 了 更 大 的 带 有 灵活 亚 分 割 机 制 的 块 结 构 ， 高 分 辩 挛 视频 更 高 压缩 性 能 
的 最 有 利 的 元 素 之 一 到 来 了 。 为 此 ，TMuc 定义 了 编码 单元 (CU, Coding Unit), 
它 定义 了 将 一 帧 图 像 亚 分 割 为 相同 CG) 或 可 变 尺 寸 的 矩形 区 域 。 编 码 单元 取 
SRR (H.264) 且 包 括 一 个 或 寿 干 预测 单元 (PU, Prediction Unit) 和 变 
换 单元 (TU, Transform Unit) 。 所 有 这 些 元 素 基本 的 分 裂 几何 结构 由 一 个 类 似 与 











$5 章 高效 视频 编码 ( HEVC) 109 


W 





PU LRRD R EIT aS, Æ PU 级 别 上 ， 可 以 选择 帧 内 编码 或 者 帧 间 
编码 。 

Kim 等 的 论文 “Block partitioning structure in the HEVC standard”[E91]， 解 释 
了 块 分 橡 结构 的 技术 细 市 并 给 出 编码 效率 和 复杂 度 的 分 析 结 果 。 

© 帧 内 预测 从 已 经 解码 的 相 邻 PU 样 值 进行 ， 其 中 的 不 同 模式 包括 直流 (F 
均 ) 、 水 平 、 垂 直 、 或 多 达 28 个 方向 〈 取 决 于 块 大 小 ) 的 角度 之 一 、 平 面 (幅度 
表面 ) 预测 、 和 双 线 性 预测 。 模 式 指示 从 相 邻 PU 的 模式 中 获得 〈( 见 图 5.4) 。 


VER-8 VER-7 VER-6 VER-5 VER-4 VER-3 VER-2 VER-1VERVER+1 VER+2 VER+3 VER+4 VER+5 VER+6 VER+7 VER+8 














HORS | 





HOR-7 














HOR+6 HOR+5 HOR+4 HOR+3 HOR+2 HOR+IHORHOR-| HOR-2  HOR-3 HOR-4 HOR-5 HOR-6 


HOR+7 


HOR+8 


图 5.4 HM 1. 0 统一 帧 内 预测 中 的 可 用 预测 方向 


。 帧 间 预 测 从 存储 在 参考 帧 里 已 经 解码 的 帧 图 像 的 区 域 进 行 。 这 就 允许 在 多 
幅 参 考 网 像 中 进行 选择 、 以 及 来 自 两 幅 参 考 帧 或 者 同一 参考 帧 内 的 两 个 位 置 上 的 双 
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问 预 测 〈 包 括 加 权 平 均 ) 。 在 此 背景 下 ， 就 运动 矢量 (四 分 之 一 精度 ) 的 用 法 而 
言 ， 相 邻 PU 的 合并 是 可 能 的 ， 非 矩形 亚 分 裂 也 是 有 可 能 的 。 为 了 高 效 的 编码 ， 定 
义 了 类 似 于 H. 264/AVC (第 4 草 ) 的 跳跃 和 直接 模式 ， 而 且 通 过 各 种 方法 诸如 中 
值 计 算 或 叫 作 运动 矢量 苋 争 的 新 方 宁 来 获得 相 邻 PU 的 运动 矢量 。 

在 TU 级别 (通常 不 会 比 PU 大 ) E, 使 用 了 在 概念 上 类 似 与 DCT 的 整数 空域 
变换 ， 块 大 小 从 4 x4 到 64 x64 可 选 。 对 于 帧 内 方向 模式 ， 对 于 通常 在 残 差 预测 中 
呈现 出 方向 结构 的 方向 帧 内 模式 ， 使 用 了 专门 的 模式 相关 的 方向 变换 (MDDT， 
Mode- Dependent Directional Transform) 用 于 4 x4 和 8 x8 大 小 的 块 。 此 外 ， 对 于 大 
于 8 x8 的 块 的 情况 ， 可 以 使 用 旋转 变换 ( 见 P. 5. 13 ) 。 变 换 系 数值 的 缩放 、 量 化 
和 扫描 以 类 似 于 AVC 的 方式 进行 。 

在 CU 级 别 ， 有 可 能 在 一 个 自 适 应 环 路 滤波 器 (ALF，Adaptive Loop Filter) 上 
进行 转换 ， 在 将 帧 复制 到 参考 帧 缓冲 之 前 ALF 用 在 预测 环 路 中 。 这 是 一 种 FIR 滤 
波 句 ， 设 计 的 目的 是 最 小 化 相对 于 原始 帆 的 失真 〈 例 如， 在 最 小 二 乘 或 维 纳 滤 波 
僵 优 化 的 意义 下 )。 滤 波 冀 系数 在 分 片 级 别 上 进行 编码 。 此 外 ， 去 块 效应 滤波 带 
(类 似 于 在 H. 264/ AVC 中 设计 的 去 块 效应 滤波 右 ) 也 工作 在 预测 环 路 内 。 在 应 用 
这 两 个 滤波 融 之 后 ， 解 码 融 的 显示 输出 写 和 人 解码 帧 缓冲 硕 。 请 注意 ， 在 HEVC 标 
准 中 ALF 被 弃 之 不 用 了 [ E23，E59，E97]。 在 更 新 版 本 中 ， 环 路 中 的 滤波 包括 去 
块 效应 和 样 值 自 适 应 偏 移 (SAO，Sample Adaptive Offset) 滤波 器 ( 见 图 5.4)。 关 
于 HEVC 标准 中 的 SAO 参见 [E85, E109], 

TMuC 定义 了 两 个 上 下 文 自 适 应 的 箭 编码 方案 ， 一 个 用 于 较 低 复杂 上 度 模 式 的 工 
作 中 ， 男 一 个 用 在 较 高 复杂 度 模式 下 。 

TMuC 的 实现 软件 已 经 被 开发 出 来 了 。 基 于 此 ，JCT- VC 正在 进行 有 关 TMuC 
包含 的 编码 工具 以 及 除 此 之 外 提出 的 其 他 工具 性 能 的 研究 。 基 于 这 样 工 具 试验 
(TE, Tool Experiments) 的 结果 ， 该 小 组 将 定义 一 个 称 为 测试 模型 (TM, Test 
Model) 的 更 加 有 效 的 设计 作为 HEVC 标准 化 过 程 中 下 一 个 有 重大 意义 的 步骤 。 有 
KHAT TMuC 诸 元 的 逐 工 具 评价 的 专门 实验 已 被 列 和 人 计划 ; 此 外 ， 其 他 能 在 帧 内 帧 
间 了 预测、 变换、 和 编 码 和 运动 矢量 编码 领域 给 出 压缩 能 力 或 复杂 度 降 减 方面 给 出 祝 
外 益处 的 工具 评价 也 在 此 列 。 各 种 各 样 的 特 设 团 队 (AHG, ad hoc groups ) 建立 起 
来 对 诸如 复杂 度 分 析 这 样 的 问题 开展 额外 的 研究 ， 如 下 所 列 : 

建立 的 特 设 协调 小 组 

。 JCT- VC 项 目 管理 ; 

。 考虑 编辑 中 的 测试 模型 ; 

。 软件 开发 与 TMuC 软件 技术 评估 ; 

。 帧 内 预测 ，; 

其 他 被 选 的 变换 ; 
。 运动 矢量 精度 ; 
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© 环 路 滤波 着 ; 

© 大 块 结构 ; 

。 FITRI. 
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向 帧 内 预测 、 多 种 块 尺 寸 运动 估 计 、SAO 滤波 器 [E85，E109] 、 环 路 去 块 效应 滤 
ae [E71], Wit (CABAC， 见 [ E65，E66])、 多 帧 运动 补偿 加 权 预 测 、 从 
4 x4 到 32 x32 [E72] 的 整数 变换 、H.264/AVC (第 4 章 ) 引入 的 帧 内 编码 直 
流 系 数 哈达 玛 变 换 编码 、 以 及 如 下 所 列 的 各 种 其 他 工具 ,综合 起 来 与 H. 264/ 
AVC 相 比 已 经 在 编码 效率 、 降 低 比 特 紊 、 更 高 的 PSNR 方面 表现 出 进一步 的 增 
益 。 这 样 ，HEVC 在 奢 干 不 同 的 应 用 领域 中 很 有 希望 和 潜力 ， 而 且 其 至 可 能 赶 上 
H. 264/ AVC, 

1) 在 帧 内 预测 中 (ILE 5.4) 不 同 的 PU 有 各 种 方向 预测 模式 (多 达 34 种 ) 
| E49, E102]; 

2) 对 于 帧 内 编码 ， 除 了 传统 的 水 平 / 垂 直 扫 描 之 外 还 有 模式 相关 的 方向 变换 
(MDDT, mode dependent directional transform) [ E6 、E49 E15 | ; 

3) MMA (8x8) 的 块 的 旋转 变换 (IL P. 5.13); 

4) 高 达 32 x32 的 大 尺寸 变换 [E6, E72]; 

5) 环 内 去 块 效应 滤波 器 [E71] 和 SAO 滤波 器 [ E85, E109]; 

6) 面 癌 运 动 估计 /运动 补偿 的 大 尺寸 块 ，; 

7) JRA Ie oat [E59], 

注意 ， 其 中 第 2 项 和 第 3 项 已 被 弃 而 不 用 ， 因 为 它们 对 于 编码 效率 贡献 非常 小 
却 以 大 幅 增 加 复杂 度 为 代价 。 其 他 被 提出 的 方向 变换 ， 像 方向 DCT [E110] 和 模 
式 相 关 DCT/DST [E111] ， 也 因为 同样 的 原因 被 放弃 了 。 

附 笔 : JCT- VC 的 介绍 基于 Sullivan 和 Ohm 发 表 的 论文 “Recent developments in 
standardization of high efficiency video coding (HEVC)”， 数 字 图 像 处 理 的 应 用 XXXII, 
SPIE 会 议 录 ， 第 7798 卷 ， 页 码 : 77980 V-1 到 7980 V-7, 2010. 

对 于 HEVC 的 最 新 进展 ， 读 者 可 参考 一 篇 优秀 的 评论 论文 : Sullivan et al. ,“Over- 
view of high efficiency video coding ( HEVC ) standard”, IEEE Trans. CSVT, vol.22, 
pp. 1669- 1684, Dec.2012 [E50] . 还 有 关于 HEVC 主题 报告 [E97], HEVC 指南 
[E23], HEVC 文本 规格 草案 8 [E58], 

对 于 帧 内 模式 ， 从 DST 推导 得 出 的 另 一 种 变换 只 用 于 4 x4 亮度 块 。 对 于 其 他 
情况 使 用 整数 DCT。 




















5.3 HEVC 测试 模型 中 编码 工具 的 分 析 ，HM 1.0: 帧 内 预测 





在 HM 1.0 中 ， 对 于 不 同 的 PU， 统一 帧 内 预测 提供 多 达 34 种 方向 预测 模式 。 
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对 于 大 小 为 4x4, 8x8, 16x16, 32 x32 和 64 x64 IY PU, 4H 17, 34, 34, 
34， 和 5 种 可 用 的 预测 模式 。 统 一 帧 内 预测 中 的 预测 方向 的 角度 为 + [0, 2, 5, 
9, 13, 17, 21, 26, 32] /32。 在 垂直 预测 的 情况 下 ， 角 上 度 由 PU 的 底 行 和 PU 上 
的 参考 行 给 出 ; 或 者 在 水 平 预测 的 情况 下 ， 和 角度 由 PU 最 右 列 的 位 移 和 PU 左 侧 的 
参考 列 给 出 。 图 5.4 示 出 了 一 个 32 x32 块 预测 方向 的 例子 。 对 于 所 有 的 块 大 小 ， 
像素 的 重建 以 1/32 的 像素 精度 使 用 项 上 或 左 侧 的 参考 样 值 进行 线性 内 插 ， 而 不 是 
对 于 不 同 尺 寸 具 有 不 同 的 精度 。 

EZAR HM 1.0 统一 帧 内 预测 的 细节 可 以 访问 http://www. h265. net/2010/ 
12/analysis- of- coding- tools- in- heve- test- model- hm- intra- prediction. html, 

HEVC 的 工作 草案 (WD, Working Draft) 已 经 经 历 几 次 更 新 /修订 ， 而且 最 终 
草案 国际 标准 (FDIS, Final Draft International Standard) 已 经 在 2013 年 1 月 出 现 
了 。 总 的 目的 是 ,在 适度 增加 编码 器 /解码 器 复杂 度 的 情况 下 ， 与 H. 264/AVC (第 
450) 相 比 降低 比特 率 ， 显 车 提 高 PSNR, 








5.4 HEVC 编码 器 


IEEE Trans. CSVT vol. 22, Dec. 2012 是 关于 下 一 代 视 频 编 码 中 新 兴 的 研究 和 标 
准 的 专刊 [E43 ] 。 这 期 专刊 提供 了 HEVC 相关 技术 、 实 现 和 系统 的 最 新 进展 ， 重 
点 是 进一步 的 研究 。 因 为 HEVC 正在 发 展 之 中 ， 本 章 包 括 若 干 有 关 HEVC 的 专题 ， 
| 带 适当 的 参考 文献 ， 以 及 关于 KTA 和 HEVC 软件 的 信息 [E95 ] 。 这 些 专题 很 有 
希望 能 提供 那些 提出 的 工具 和 技术 的 更 深 一 步 的 洞察 力 ， 而 且 提 供 了 针对 它们 的 修 
改 的 专题 讨论 会 ， 这 些 修改 导致 了 HEVC 编码 器 /解码 器 的 进一步 改善 。 图 5.5 描 
述 了 HEVC 编码 器 框图 [E59 ] 。 这 没有 给 出 代表 各 种 模式 〈 帧 内 / 帧 间 、CUZPU/7 
TU 尺寸 、 帧 内 角度 预测 方向 /模式 、 运 动 撩 量 预 测 、 变 换 系 数 的 缩放 和 量化 ， 以 及 
其 他 模式 在 解码 右 框 图 中 给 出 一 一 见 图 5.6) 的 编码 比特 流 。 

对 于 方向 帧 内 模式 ， 与 DST 相关 的 男 一 种 变换 用 于 4 x4 亮度 预测 残 差 。 对 
于 所 有 其 他 情况 使 用 整数 DCT ( 帧 内 / 帧 间 色 度 ， 和 帧 内 亮度 )。2012 年 7 月 ， 
这 种 改变 在 斯 德 哥 尔 摩 被 采纳 。 在 信 编 码 方面 ， 只 采用 上 下 文 自 适应 二 进 制 算 
术 编 码 (CABAC, Context Adaptive Binary Arithmetic Coding) [ E65, E66], mi 
AMR H. 264/AVC (第 4 章 ) 中 的 两 种 (CAVLC #1 CABAC), [E58] 提供 了 
上 下 文 建 模 的 细节 、 自 适应 系数 扫描 和 系数 编码 。 模 式 相关 的 方向 变换 [E3, 
E15] 没有 被 采用 。 除 了 4 «4 帧 内 亮度 外 的 所 有 情况 都 只 使 用 INTDCT (可 分 
离 的 2 维 )。 

KE HEVC 遵循 传统 (也 经 过 检验 的 ) 的 基于 块 的 运动 补偿 预测 ， 然 后 是 变 
换 编 码 、 量 化 、 变 长 编码 (也 是 自 适应 帧 内 模式 ) ， 由 于 它 采 取 了 灵活 的 四 又 树 编 
码 块 分 裂 结构 而 具有 明显 的 不 同 。 除 了 去 块 效 应 滤波 器 [E71] 之 外 ,大 尺寸 的 块 
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图 5.5 HEVC 编码 需 框 图 [E59] (2012 IEEE) 
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图 5.6 HEVC 解码 需 框 图 [ E22 | 


变换 (高 达 32 x32)、 先 进 的 运动 预测 、 样 值 自 适应 偏 移 (SAO, Sample Adaptive 
Offset) [ E85, E109] 扩大 了 递归 树 的 编码 结构 。 大 的 多 尺寸 递归 结构 归 类 为 编码 
单元 (CU, Coding Unit) 、 预 测 单元 (PU, Prediction Unit) 和 变换 单元 (图 5.7) 





[E42], BY [E72] 获得 有 关 HEVC 中 变换 系数 编码 的 细节 。 


TUp 





TU, 





a) b) c) 


Al5.7 HEVC 的 递归 块 结 构 〈 其 中 上 表示 CUk 和 TUk 的 深度 ) [E42] 
a) CU 结构 b) PU 结构 c) TU 结构 


通过 引入 帧 内 上 自 适 应 角度 方 回 预测 、 模 式 相 关上 下 文 样 值 平 滑 、 目 适应 运动 参 
数 预测 、 环 路 滤波 (去 块 效应 滤波 器 和 SAO) ， 进 一 步 增加 了 HEVC 编码 器 复杂 
度 。 这 些 和 其 他 工具 贡献 了 超越 H. 264 编码 效率 改善 的 50% ， 代 价 是 编码 髓 复杂 
度 的 大 幅 提高 。 然 而 ， 解 码 需 复杂 上 度 类 似 于 H. 264/AVC [ E23, E59, E103], A 
人 建议 了 降低 编码 右 帧 内 预测 复杂 度 的 几 种 技术 (参见 [E42] 和 最 后 引用 的 各 种 
参考 文献 ) 。 并 日 参见 [E106], Zhang 和 Ma [E42] 也 在 探索 降低 帧 间 预 测 的 复 
杂 度 。 他 们 建议 这 两 个 方面 ( 帧 内 和 帧 间 预 测 模式 ) 可 被 组 合 起 来 降低 HEVC 编 
码 器 的 整体 复杂 度 (参见 专题 P.5.16 到 P.5.19)。 这 是 一 片 研 究 的 肥沃 土壤 。 
Main 和 high efficiency 10 (HE 10) 包含 的 工具 总 结 在 表 5.2 中 。 这 些 工 具 的 细节 
在 测试 模型 编码 需 描 述 中 [E57] 有 详细 说 明 。 另 外 参见 评论 文章 [ E59, E97, 
E105] 。 论 文 [E59] 指出 “为 了 帮助 工业 界 学 会 如 何 使 用 标准 ， 标 准 化 工作 不 仅 
包括 文本 性 的 说 明 书 文档 进展 ， 也 要 包括 参考 软件 源码 (编码 器 /解码 句 )” 
[E95 ] 。 这 个 软件 可 作为 一 个 研究 工具 和 产品 的 基础 。 该 论文 也 指出 “标准 的 测试 
数据 集 也 在 形成 ， 用 于 测试 与 标准 的 一 致 性 ”。 


5.4.1 帧 内 预测 


图 5.8 所 示 为 对 应 于 图 5.4 描述 的 VER 和 HOR 的 33 个 帧 内 预测 方向 的 角度 
[E57，E59，E123]。 图 5.9 示 出 了 33 个 帧 内 预测 模式 方向 。 帧 内 预测 模式 方向 和 
角度 直接 的 映射 如 表 5.3 所 示 [El123 ] 。 也 要 参见 [E102 ] 。 这 些 帧 内 预测 模式 对 
于 HEVC 的 性 能 改善 具有 显著 的 贡献 。 对 于 所 有 帧 内 预测 的 情况 ,使 用 方向 预测 
模式 的 统计 分 析 表 明 ， 除 平面 (模式 0) 和 直流 (模式 1) 3h, KE (模式 10) 
和 垂直 (模式 26) 位 于 前 列 [E102], [E102] 的 作者 们 通过 制订 一 个 角度 表 已 经 
表明 ， 对 于 含有 大 量 丰 富 纹理 的 视频 序列 能 提高 编码 增益 。 每 个 帧 内 编码 的 PU 对 
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亮度 会 有 一 个 帧 内 预测 模式 ， 对 色 度 分 量 会 有 另 一 个 模式 。 一 个 PU 内 所 有 的 TU 
对 每 个 分 量 会 使 用 相同 的 相关 模式 。 然 后 ， 编 码 器 从 35 (33 加 上 平面 和 直流 ) 个 
方向 中 选择 最 好 的 亮度 帧 内 预测 模式 。 由 于 预测 方向 数目 的 增加 (与 H. 264/ 
AVC 一 一 第 4 章 ) 相 比 ，HEVC 考虑 了 三 个 最 可 能 的 模式 (MPM, Most Probable 
Mode) ， 相 比 之 下 H. 264/AVC 只 考虑 一 种 MPM。 对 于 帧 内 编码 PU 的 色 度 分 量 ， 
编码 器 从 和 平面、 直流、 水平、 垂直 和 亮度 帧 内 预测 模式 的 直接 复制 这 5 种 模式 中 进 
行 选择 最 好 的 色 度 预测 模式 ，[ E57，E123] 给 出 了 色 度 帧 内 预测 方向 和 模式 # 的 映 
射 细节 。 

[E59 E97, E105] 提供 了 HEVC 编码 器 相关 的 分 片 、 编 码 单元 、 预 测 单元 、 
变换 单元 、 帧 间 预 测 模式 、 特 殊 编 码 模 式 、 运 动 和 撩 量 估 计 / 预 测 、 分 数 像素 精度 的 
运动 矢量 内 搬 滤 波 禹 、 加 权 预 测 、 变 换 的 大 小 (4x4, 8x8, 16x16, 32 x32) 
[E72] 、 变 换 系 数 扫描 一 一 图 5.10 (FEIL [E72]) 、 缩 放 / 量 化 、 环 路 滤波 硕 (去 
块 效 应 滤波 器 [E71] 和 SAO [ E85, E109]). ae 05 (CABAC [ E65, E66]) 
PULA PPA ESA EIN EAN, TIT AY Z 形 扫描 没有 被 采用 。 





5.2 HM9 配置 中 的 工具 结构 
Main High efficiency 10 ( HE10) 


BRAY BF : 





Kop F WRT E fee ES AAU BEAL DG Td BY ey Bl SCE 
清楚 随机 访问 支持 

和 矩形 分 片 结构 的 扫描 

面向 并 行 性 的 波 阵 面 结 构 处 理 依赖 性 

等 于 码 树 单元 的 空间 粒度 分 片 

有 具有 独立 和 非 独 立 分 片 部 分 的 分 片 
RBA, RMAC, AERA: 


























编码 单元 四 叉 树 结构 方形 编码 单元 块 大 小 2N x2N, N=4, 8, 16, 32 〈 即 大 小 高 达 64 x64 的 亮度 样 值 ) 





预测 单元 (对 于 大 小 为 2N x2N 的 编码 单元 :) 对 帧 间 编 码 , 2N x2N, 2NxN, Nx2N, Xt N>4 WY 2N x 
(N/2+3N/2) 和 (N/2 +3N/2) x2N; 对 帧 内 编码 ， 只 有 2Nx2N 和 N=4 时 也 有 NxN 


编码 单元 内 的 变换 单元 树 结构 (最 多 3 级 ) 
4 x4 到 32 x32 样 值 的 变换 块 尺寸 (总 是 方形 的 ) 
15 FH SAERSPCM RT: 





















































类 似 DCT 的 整数 块 变换 ， 对 于 帧 内 编码 也 可 用 一 种 基于 DST 的 整数 块 变换 〈 仅 对 4 x 4 的 亮度 块 ) 
对 帧 间 编 码 变 换 可 能 跨越 预测 单元 的 边界 ;对 帧 内 编码 则 不 会 

对 4 x 4 的 变换 单元 允许 跳跃 变换 

市 有 最 坏 情况 比特 使 用 限制 的 PCM 编码 





















































Main High efficiency 10 ( HE10) 





AABAA ta PA ; 
帧 内 编码 角度 预测 (35 种 模式 包括 直流 和 平面 模式 ) 
帧 内 编码 平面 预测 
ie fe) Fe FS FY : 
完 度 分 量 运动 补偿 内 插 : 1/4 样 值 精度 ， 对 1/2 样 值 精度 的 8 x 8 可 分 离 6bit 抽 头 值 ， 对 于 1/4 精度 的 
7 x7 可 分 离 6bit 抽 头 值 
色 度 分 量 运动 补偿 内 插 ， 1/8 样 值 精度 ，4 x4 可 分 离 6bit 抽 头 值 
带 有 运动 矢量 “竞争 ”和 “合并 ”的 先进 运动 矢量 预测 
篇 编码 : 
EP SCA ie hE GN SS) (CABAC) 
率 失真 优化 的 量化 (RDOQ) 



































Wate Siw nee : 

8bit/ 样 值 的 存储 和 输出 10bit/ 样 值 的 存储 和 输出 
INERTE : 

去 块 效应 滤波 器 


样 值 自 适应 偏 移 滤波 器 (SAO) 
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图 5.8 帧 内 预测 角度 预测 [E57，E123] 
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: Intra_Planar 


1: Intra DC 
35: Intra_FromLuma 





图 $.9 帧 内 预测 模式 的 方向 [E57, E123], 55L [E102] 
表 5.3 帧 内 预测 模式 方向 ( 见 图 5.9) 和 帧 内 预测 角度 (JIA 5.8) 直接 的 映射 [E123] 


帧 内 预测 模式 1 2 3 4 5 6 7 8 9 10 11 





帧 内 预测 角度 - 32 26 21 #17 13 9 5 2 0 -2 -5 
帧 内 预测 模式 18 19 20 2 22 23 24 25 26 27 28 29 


帧 内 预测 角度 -32 -26 -21 -17 -13 -9 -5 -2 0 2 5 9 


5.4.2 ”变换 系数 扫描 

HEVC 对 于 8 x8 变换 块 采 用 的 三 种 变换 系数 扫描 方法 ， 对 角 、 水 平和 垂直 如 
图 $. 10 所 示 [E72], 4x4 变换 块 的 扫描 是 对 角 的 。 在 帧 内 编码 情况 下 对 于 4 x 4 
和 8 x8 变换 块 可 能 会 使 用 水 平和 垂直 扫描 。 
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图 5.10 a) 8x8 变换 块 的 对 角 扫 描 模式 : 4 x 4 变换 块 的 对 角 扫描 用 在 大 块 的 每 个 4x4 
子 块 内 b) 8 x8 变换 块 的 系数 组 [E72] (2012 IEEE) 


5.4.3” 腕 度 与 色 度 的 分 数 像 素 内 插 


亮度 分 量 内 插 的 整数 (A,，) 和 分 数 像素 位 置 (下 标 字 母 ) 如 图 5.11 所 示 
[E59 ，E107 ] 。 对 于 一 般 的 内 搬 参 见 [E69 ] 。 

不 像 H. 264 采用 的 两 阶段 内 插 过 程 ，HEVC 对 于 1/2 像素 使 用 可 分 离 的 8 抽 
SUE ae, STF 1/4 像素 采用 7 抽 头 滤波 器 ( 表 5.4) [ES$9，E69，E107] 。 类 
似 地 ， 色 度 分 量 分 数 (178 精度 ) 像素 内 插 的 4 抽 头 滤波 需 系 数 如 表 5.5 所 列 。 
Lv [E107] 已 经 进行 过 针对 HEVC 和 H. 264/AVC 中 的 分 数 像素 内 插 滤 波 器 
的 性 能 比较 研究 ， 并 得 出 结论: HEVC 的 滤波 需 比 H. 264/AVC (第 4 章 ) 的 滤 
波 器 提高 了 超过 10% 的 BD X [E79，E80，E94]， 代价 是 增加 了 实现 的 复 

表 5.4 亮度 的 分 数 样 值 内 插 滤 波 器 系数 [E59] 


下 标 3 uy =i 0 1 2 3 4 





hfilter [i] | 4 -11 40 40 -11 4 1 


qfilter [i] -1 4 -10 58 17 -5 1 


(IEEE 2012) 








| | | Poea 


ES | | E 


EEE 00S 
bol T fefefe feja 
EEE COS E 


图 5.11 SEENI ARAA AME (2012 IEEE) 


Q. 
N 
5 


a © 





表 5.5 色 度 的 分 数 样 值 内 插 滤 波 器 系数 [ES9] 





下 ofp 1 0 1 2 
filterl [i] 2 58 10 -9 
filter2 [i] -4 54 16 -2 
filter3 [i] 6 46 28 -4 
filter4 [i] 4 36 36 -4 








(IEEE 2012) 


5.4.4 HM1 5 HEVC 草案 9 编码 工具 的 比较 


HEVC 测试 模型 第 1 版 (HMI) 和 草案 9 [E57] 的 编码 工具 总 结 在 表 5.6 中 
[E59]. Sullivan 等 人 关于 HEVC 的 综述 论文 [E59] 是 一 个 卓越 的 文献 资源 ， 它 
不 仅 淤 清 了 所 有 固有 的 功能 ， 而 且 还 说 明了 导致 这 个 相当 有 效 的 标准 的 历史 和 标准 
化 过 程 。 从 长 远 来 看 ，HEVC (包括 附加 内 容 /扩展 /档次 ) 已 经 具有 潜力 /前 景 赶 
上 所 有 以 前 包括 H. 264/AVC (第 4 章 ) 的 标准 。 











5.5 扩展 到 HEVC 


与 H. 264/ AVC 一 样 ，HEVC 的 附加 /扩展 内 容 包 括 4:2:2 和 4:4:4 格式 、 更 高 





表 5.6 HM1 和 HEVC 中 高 效 配置 的 编码 工具 的 总 结 [ ES91] 






































功 能 HM1 高 效率 HEVC (草案 9) 

CTU 结构 从 8 x8 倒 64 x 64 的 树 结构 从 8 x8 倒 64 x64 的 树 结构 

PU 结构 方形 对 称 的 方形 、 对 称 和 非 对 称 (方形 只 对 帧 
内 编码 ) 

TU 结构 方形 TU 的 树 结 构 方形 TU 的 树 结构 

核 变换 从 4 到 32 点 的 整数 变换 (完全 ”从 4 到 32 点 的 整数 变换 (部 分 可 

因数 分 解 ) 分 解 ) 

其 他 的 变换 不 适用 对 于 4x4 的 整数 DST 类 型 

帧 内 预测 33 种 角度 模式 加 直流 模式 33 种 角度 模式 加 平面 和 直流 模式 

亮度 内 插 12 抽 头 可 分 离 8 抽 头 /7 抽 头 可 分 离 

色 度 内 插 双 线 性 4 抽 头 可 分 离 

运动 矢量 预测 AMVP AMVP 

运动 补偿 合 3 空域 CU 合并 PU 合并 

Wj StS CABAC CABAC 

去 块 效 应 滤波 器 非 并 行 的 并 行 的 

样 值 自 适应 偏 移 不 适用 启用 

自 适应 环 路 滤波 器 多 种 形状 不 适用 

并 行 处 理 的 专用 工具 分 片 分 片 、 小 片 、 波 阵 面 和 相关 的 分 片 
部 分 


的 位 深 (10 和 也 许 12)、 可 扩展 视频 编码 (SVC, Scalable Video Coding) [ E67， 
E68，E73，E74，E117] 、3D/ 立 体 / 多 视 编码 (这 些 内 容 的 一 部 分 正 被 探索 中 )。 
参见 [E21, E23], 与 SVC 有 关 的 几 个 议案 已 于 2012 年 10 月 在 上 海 召 开 的 HEVC 
(ITU-T/ISO, IEC) 会 议 上 提交 了 。 读 者 可 以 参考 海报 论文 [E25] MA. P2 “High 
efficiency video coding” , IEEE ICIP 2012 ， 佛 罗 里 达州 奥兰多 市 ，9-10 H, 2012 和 
下 一 代 视 频 编 码 的 新 兴 研 究 与 标准 专刊 ，IEEE Trans. CSVT, 22 #, 2012 年 12 月 
[E43 ] 。 这 期 专刊 的 几 篇 文章 在 此 作为 参考 文献 加 以 引用 [ES59- 61 E65, E67, 
E68，E71，E72，E74- E76，E81- E83，E85- E91，E118]。 这 些 论 文 不 仅 涵 盖 了 
HEVC 的 各 个 方面 ， 而 且 还 涵盖 了 降低 实现 复杂 度 的 途径 和 该 标准 采纳 各 种 工具 和 
方法 背后 的 原因 。 其 中 的 部 分 论文 也 提供 了 最 初 考 虑 某 些 工具 的 理由 ， 诸 如 自 适 应 
环 路 滤波 希 、MDDT、ROT 等 ， 以 及 后 来 标准 去 除 这 些 工具 的 理由 。IEEE 期 刊 
IEEE Journal of selected topics insignal processing 也 进行 “视频 编码 : HEVC 及 其 他 ” 
的 专题 征文 ，2013 年 6 月 25 日 截稿 [E78]. 











第 5 章 高效 视频 编码 (HEVC) 77) 





5.6 ”档次 和 级 别 


目前 ， 在 国际 标准 终 稿 (FDIS, Final Draft International Standard) (2013 年 1 月) 
列 出 了 三 个 档次 ( 主 档次 、 主 10 档次 和 主 静 止 图 像 档次 一 一 只 用 于 帧 内 编码 
W) [E123], ITU-T 2 16 人 研究 组 已 经 同意 这 个 第 一 阶段 的 认可 案 稿 正式 叫 作 
H. 265 建议 或 ISO/IEC 23008-2。 主 档次 限于 YCbCr 4:2:0 格式 、8 比特 位 深 、 








渐进 扫描 〈 非 隔行 的 ) 、 空 间 分 辨 率 范 围 从 QCIF (176 x144) 到 7640 x 4320 
( 叫 作 8k x 4k) o 


15.12 [G17] 列 出 了 从 标清 (NTSC) 到 高 品质 电视 / 超 高 清 视频 的 空间 分 辩 
率 范 围 。 在 主 档 次 的 第 一 版 中 包括 了 13 个 级 别 (485.7) [ E59, E97]. 


PENIS EZO x 480) 





图 5. 12 未 来 的 视觉 应 用 与 需求 


表 5.7 HEVC 主 档次 的 级 别 限 制 [E59] 





级 别 最 大 亮度 帧 最 大 亮度 样 值 主 层级 最 大 高 层级 最 大 最 小 
尺寸 ( 样 值 数 ) 速率 Es) 比特 率 (1000bit/s) ”比特 率 (1000bit/s) ”压缩 比 
1 36 864 552 960 128 = 2 
2 122 880 3 686 400 1 500 — 2 
2.1 245 760 7 372 800 3 000 — 2 
3 552 960 16 588 800 6 000 — 2 
3.1 983 040 33 177 600 10 000 — 2 


4 2 228 224 66 846 720 12 000 30 000 4 











( 续 ) 

m 最 大 亮度 帧 最 大 亮度 样 值 主 层级 最 大 高 层级 最 大 最 小 

尺寸 ( 样 值 数 ) 速率 (Es) 比特 率 (1000bit/s) ”比特 率 (1000bit/s) ”压缩 比 

4.1 2 228 224 133 693 440 20 000 50 000 4 
5 8 912 896 267 386 880 25 000 100 000 6 
5.1 8 912 896 534 773 760 40 000 160 000 8 
5.2 8 912 896 1 069 547 520 60 000 240 000 8 
6 33 423 360 1 069 547 520 60 000 240 000 8 
6.1 33 423 360 2 005 401 600 120 000 480 000 8 
6.2 33 423 360 4 010 803 200 240 000 800 000 6 


5.7 HEVC 编码 器 的 性 能 和 计算 复杂 度 


对 于 HEVC 编码 器 的 编码 效率 性 能 对 计算 复杂 度 的 关系 ，Corra 等 人 [ E82 ] 
已 经 进行 了 一 次 彻底 而 详细 的 研究 。 这 项 研究 重点 集中 在 找 出 最 为 影响 这 两 个 关键 
参数 (效率 和 复杂 度 ) 的 工具 。 一 项 非常 宝贵 的 成 果 就 是 效率 和 复杂 度 直接 的 均 
衡 点 ， 这 对 于 实现 复杂 度 受 限 的 编码 器 而 言 是 非常 有 用 的 。 

此 外 ， 实 现 与 高 复杂 度 配 置 可 比拟 的 编码 效率 的 低 复杂 度 编 码 器 的 进展 对 于 工 
业界 也 是 一 个 宝贵 资源 。 通 过 使 用 哈达 玛 运动 估计 、 非 对 称 运 动 分 制 和 环 路 滤波 需 
而 不 是 要 求 很 多 计算 量 的 工具 如 运动 估计 ， 可 以 同时 实现 低 复 杂 度 和 高 效率 。 他 们 
的 分 析 包括 的 三 个 编码 工具 ( 非 方 形变 换 、 自 适应 环 路 滤波 右 和 LM 色 度 ) 后 来 从 
标准 草案 中 去 掉 了 [E58], 


























5.8 HEVC 的 系统 层面 集成 


Schierl 等 人 描述 了 HEVC 的 系统 层面 集成 [ E81] ， 讨 论 了 将 HEVC 集成 到 端 
到 端 多 媒体 系统 、 格 式 和 协议 (RTP, MPEG-2 TS ISO 文件 格式 和 HTTP- DASH 
上 的 动态 自 适应 流 )， 也 提 到 了 HEVC 中 的 抗 误 码 工具 。H. 264/AVC 的 许多 抗 误 码 
工具 诸如 FMO 、ASO 、 宛 余 分 片 、 数 据 分 裂 以 及 SPZSI 帧 (第 4 章 ) 由 于 它们 的 利 
用 率 都 被 去 除了 。 他 们 建议 ，HEVC 错误 隐藏 的 使 用 在 实现 中 应 该 被 仔细 考虑 ， 而 
且 是 一 个 未 来 研究 的 课题 。 他 们 描述 了 不 同系 统 功能 层 提供 的 视频 传输 和 交付 诸如 
广播 、 网 络 电视 、 网 络 流 媒 体 、 视 频 会 话 和 存储 ， 并 以 此 作为 结束 。 参 见 Schierl 
等 :“Working draft 1. 0 for transport of HEVC over MPEG-2 Systems” , ISO/IEC SC29/ 
WG11, MPEG99/N12466” 2012 年 2 月。 
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5.9 HEVC 的 无 损 编 码 与 改进 





Zhou 等 [E83] 已 经 实现 了 HEVC 主 档次 的 无 损 编码 模式 (市 通 变 换 、 量 化 
和 环 路 滤波 天 一 一 图 5$.13 [ E83])， 而 且 显 示 出 了 显著 的 性 能 改善 (比特 率 下 
降 ) ， 超 越 了 当前 无 损 方 法 诸如 JPEG2000、JPEG- LS、7- Zip 和 WinRAR ( 见 附录 
F) 。 他 们 通过 引入 基于 样 值 的 帧 内 角度 预测 (SAP, Sample Based Intra Angular Pre- 
diction) 进一步 提高 了 编码 效率 。 



































图 $.13 HEVC 无 损 编码 模式 的 编码 需 框 图 [E83] (对 比 图 5.5) (2012 IEEE) 


利用 一 个 在 HEVC 标准 发 展 过 程 中 推荐 的 视频 序列 集 ，Cai 等 [E112] 也 进行 
T HEVC 帧 内 模式 、H. 264 高 档次 4:4:4 的 帧 内 模式 ，MJPEC2000 和 JPEG- LS 的 
无 损 编码 。 他 们 的 结论 是 HEVC 的 性 能 比 得 上 H. 264/AVC, mH- JPEG- LS 和 
MJPEG 2000 相 比 拟 。 针 对 帧 内 有 损 编码 的 类 似 测试 表明 ，HEVC high 10, H. 264/ 
AVC 高 档次 4:4:4 和 HEVC 主 档次 也 有 类 似 性 能 。 然 而 ， 在 低 比特 率 环境 下 
MJPEG 2000 性 能 超越 了 前 面 三 个 ， 尽 管 这 种 优势 随 着 比特 率 的 提高 逐渐 被 补偿 并 
且 最 终 被 前 三 个 超越 。[E112] 中 列 出 了 几 篇 其 他 有 关 这 些 方法 和 其 他 标准 性 能 比 
较 的 有 趣 论文 。 

Horowitz 等 [E64] 进行 了 HEVC MP (参考 软件 HM 7.1) 和 H. 264/AVC HP 
参考 编码 器 (JM 18.3) 在 低 时 延 应 用 时 非 正式 的 主观 质量 ( 双 育 方式 ) 对 比 。 表 
5.8 描述 了 用 HM 和 JM 编码 右 编 码 的 测试 序列 对 比 结果 。 他 们 得 出 结论 ， 在 
73.6% 的 测试 当中 ， 在 大 约 一 半 比 特 率 上 ， 对 于 文 持 HEVC 的 观察 者 而 言 ， 与 
H. 264/ AVC 相 比 HEVC 一 般 会 产生 更 好 的 主观 质量 。 

为 了 强化 这 些 结果 ,将 x264 (产品 质量 级 的 H.264/AVC) 与 eBrisk Video 
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(产品 质量 级 的 HEVC 实现 方案 )。 参 见 表 5.9 的 比较 结果 。 在 62. 4% 的 测试 当中 ， 
观察 者 们 更 喜欢 约 为 x264 一 半 比 特 率 的 eBrisk 编码 的 视频 。 这 些 试验 证 实 了 
HEVC 能 在 H. 264/ AVC 一 半 的 比特 率 上 产生 类 似 的 主观 质量 。 

表 5.8 用 HM 和 JM 编码 器 编码 的 视频 主观 观察 对 比 结果 


HM 对 JM 的 主观 观察 结果 





HM 比特 率 HM 量化 JM 比特 率 JM 量 化 HM: JM 支持 HM 支持 JM % 支 持 ”投票 





(kbit/s ) 参数 (kbit/s ) 参数 HRR) 的 投票 ”的 投票 HEVC(% ) 总 数 
KnstenAndSara 149 38 302 37 49 10 15 40 25 
Vidyol 190 37 367 36 52 14 11 56 25 
OldTownCross 408 37 879 37 46 22 3 88 25 
Kimonol 632 36 1 ,404 35 49 21 4 84 25 

Toys_and_ 
teas 347 37 734 38 47 25 0 100 25 
平均 . 49 92 33 73.6 125 


表 5.9 用 eBrisk 和 x264 编码 器 编码 的 序列 主观 观察 对 比 结果 


eBrisk 对 x264 的 主观 观察 结 








eBrisk eBrisk x264 x264 eBrisk : 支持 支持 % 支持 投标 

AS 

序列 比特 率 。 量化 ”比特 率 ” 量化 ”x264 比 特 Brisk x264 HEVC 

(kbit/s) ”参数 (kbit/s) ”参数 率 (%) 的 投票 的 投票 (%) 
KnstenAndSara 332 36 657 33 51 12 13 48 25 
Vidyol 363 36 773 32 47 10 15 40 25 
OldTownCross 904 35 1 716 34 53 22 3 88 25 
Kimonol 1 ,334 35 2, 670 32 52 17 8 68 25 
Toys_and_ 
729 36 1, 553 33 47 17 8 68 25 
calendar 

平均 : 50 78 47 62.4 125 


5.10 BE 


在 视频 编码 标准 的 家 族 当 中 (图 5.1)，HEVC 有 指望 有 潜力 替代 /补充 所 有 的 
现存 标准 (MPEG 和 包括 H. 264/AVC 的 H. 26x 系列 ) 。 尽 管 HEVC 编码 器 的 复杂 
度 是 H. 264/ AVC 的 好 几 倍 〈 第 4 章 ) ， 但 解码 器 复杂 度 却 没有 超出 后 者 。 研 究 者 
们 正在 探索 有 关 降 低 HEVC 编码 器 的 复杂 度 的 问题 [E61, E77, E82, E86, E87, 
E104，E106] 。 回 报 是 几 个 测试 已 经 显示 ，HEVC 改善 了 压缩 效率 ， 对 于 可 比拟 于 
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H. 264/AVC (第 4 章 ) 的 同样 主观 质量 ， 可 提供 高 达 50% 的 比特 率 减 少量 [ E59, 
E97 ] 。 参 见 表 5.8 和 5.9。 除 了 解决 所 有 目前 的 应 用 之 外 ,设计 和 制订 HEVC 的 目 
的 集中 在 两 个 关键 问题 上 : 增加 的 视频 分 状 率 一 一 高 达 8k x 4k 一 一 使 用 并 行 处 理 
结构 的 增加 。 虽 然 提 供 了 HEVC 的 简 述 ,但 对 于 细节 和 实现 ,读者 可 以 参考 JCT- 
VC 文档 [E53 ] 、 综 述 论 文 [E5，E59，E105 ] 、 主 题 报告 [ E21 ，E97] 、 教 程 辅 
导 [E23]、 专 题 讨论 会 [E98 |] 、 海 报 论文 [E25 | 、 专 刊 [ E12, E43, E78], 
测试 模型 (TMAHM) [E54]、 网 址 /ftp 地 址 [E6，E51，E52]、 开 源 软 件 
[E47 ，E69 ，E95 ] 、 测 试 序列 和 锁定 比特 流 [E49 ] 。 研 究 者 们 [ E93, E96] 也 
在 探索 HEVC 和 其 他 标准 诸如 MPEG-2 之 间 的 转 码 问题 。 下 面 列 出 的 专题 涵盖 了 
从 研究 生 3 学 时 的 课程 到 理学 硕士 和 博士 阶段 的 研究 内 容 。 设 计 这 些 专题 则 在 提 
供 对 于 方法 和 技术 别 样 的 理解 ， 而 且 提 供 了 一 个 讨论 机 会 ， 讨 论 使 得 HEVC 编码 
需 / 解 码 需 进一步 改善 的 修正 措施 。 多 媒体 研究 组 公司 (Multimedia Research 
Group Inc. ) 预测 ，2016 年 之 前 具有 HEVC 解码 能 力 的 用 户 设 备 超过 20 亿 个 
单元 (www. mrg. com ) 。 











5.11 专题 研究 


P.5.1 Deng “A [E15] 给 H.264/AVC FRExt 加 入 了 进一步 的 扩展 ， 诸 如 更 大 的 
运动 矢量 搜索 范围 、 更 大 的 宏 块 、 跳 过 的 块 尺 寸 和 一 维 DDCT。 他 们 用 高 
分 辨 率 (HR, high Resolution) (4096 x2160) 视频 序列 比较 了 它 和 运动 
JPEG 2000 的 性 能 ， 结 有 末 表 明 ， 在 各 种 比特 率 下 前 者 的 PSNR 有 明显 的 提 
高 。 请 用 HR 测试 序列 实现 扩展 的 H.264/AVC (第 4 章 ) 和 运动 JPEG 
2000 (MF) 并 证 实 前 者 具有 优越 的 性 能 。Deng et al., “Performance 
analysis, parameter selectionand extension to H. 264/AVC FRExt for high reso- 
lution video coding” , J. VCIR, vol. 22, pp. 687-760, Feb. 2011. 

P.5.2 Karczewicz 等 [E8] 通过 加 入 额外 的 特征 诸如 扩大 的 块 尺寸 (高达 64 x64) 、 
帧 内 编码 的 模式 相关 方向 变换 (MDDT) 、 色 度 和 完 度 高 精度 滤波 、 目 适应 
系数 扫描 、 扩 大 的 块 分 裂 尺 寸 、 目 适应 环 路 滤波 、 大 尺寸 整数 变换 每 ， 提 
出 了 一 个 优 于 H.264/AVC (第 4 章 ) 的 混合 视频 编 解码 系统 。 通 过 在 不 同 
的 空间 分 辨 束 上 使 用 几 个 测试 序列 ， 他 们 给 出 ， 这 个 新 的 编译 人 码 系统 在 主 
观 质量 和 客观 指标 上 都 超越 了 传统 的 H. 264/AVC 编译 码 系统 (第 4 章 )。 
并 且 这 只 需要 在 编码 硕 和 解码 第 的 复杂 度 上 有 适当 的 增加 。 请 实现 这 个 新 
的 编译 码 系统 并 且 得 出 类 似 于 这 篇 文章 中 所 描述 的 结果 。 也 考虑 把 SSIM 
(附录 C) 作为 在 所 有 仿真 中 的 男 一 个 指标 。 请 使 用 最 新 的 H. 264/ AVC 实 
现 软件 JM, Karezewicz et al. , “A hybrid video coder based on extended mac- 


roblock sizes, improved interpolation, and flexible motion representation ” , 
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P. 5.3 


P. 5.4 


P. 5.5 


P. 5.6 


P. 5.7 


P. 5.8 


P. 5.9 





IEEE Trans. CSVT, vol. 20, pp. 1, 698-1, 708, Dec. 2010. 

Ma 和 Segall [E18] 开发 了 一 个 HEVC 的 低 分 辨 紊 (LR, Low Resolution) 
解码 占 。 这 里 的 目的 是 为 手持 或 移动 设备 在 高 分 辨 卒 比特 流 内 提供 一 个 低 
功率 解码 句 。 通 过 在 HEVC 的 框架 之 内 采用 混合 帧 缓冲 压缩 、LR 帧 内 预 
测 、 级 联运 动 补 偿 和 环 路 去 块 效 应 [ E71] ， 这 个 目标 得 以 推进 。 请 实现 这 
个 低 功率 HEVC fear; 将 这 些 工具 移植 到 HEVC 参考 模型 中 (HM9. 0) 
[E54] 并 评价 其 性 能 。Ma and Segall, “Low resolution decoding for high effi- 
ciency video coding” , IASTED SIP 2011, pp. , Dallas, TX, Dec. 2011. 

Joshi 等 [E6] 开发 了 缩放 的 整数 变换 ， 它 数值 上 具有 稳定 性 ， 结 构 上 具 
有 说 归 性 ， 而 且 是 正 交 的 。 他 们 也 把 这 些 变换 舰 入 进 H. 265/JMKTA 的 框 
染 里 。 请 专门 开发 16 点 的 缩放 变换 并 且 用 JMKTA 软件 在 H. 265 中 加 以 实 
现 。 再 开发 32 和 64 点 的 缩放 变换 。jJoshi et al. “Efficient large size trans- 
forms for high- performance video coding” , Applications of Digital Image Process- 
ing XXXIII, Proc. of SPIE, vol. 7798, 77980W-1 through 77980W-7, 2010. 
请 从 MPL 网 址 EE5359 访问 S. Subbarayappa 的 学 位 论文 (2012) “Imple- 
mentation and Analysis of Directional Discrete Cosine Transform in Baseline Pro- 
file in H. 264”。 为 所 有 有 关 4 x4 和 8 x8 DDCT 的 方向 模式 获取 基 图 像 。 
模式 4、6、7 和 8 可 以 从 模式 3 和 5 中 获得 ， 如 图 13 ~16 所 示 (eal). A 
外 参见 [El110]。 用 这 个 方法 获取 基 几 像 。 请 访问 http://www. h265. net/ 
2009/9/ mode- dependent- directional- transform- mddt- in- jmkta. html, 

请 访问 网 址 http : //www. h265. ne 并 去 分 析 HEVC 测试 模式 (HM 1.0) 中 
的 编码 工具 一 一 帧 内 预测 。 它 描述 了 对 于 不 同 PU 多 达 34 种 方向 预测 模式 
可 被 用 在 H. 265 的 帧 内 预测 中 。 请 用 TmuCHEVC 软件 [E95] 实现 HM 
1.0 里 面 的 这 些 模式 并 评价 H. 265 的 性 能 。(HM: HEVC 测试 ) 

请 考虑 各 种 比特 率 下 的 各 种 测试 序列 ， 用 TMuC HEVC 软件 [E95] 来 实 
FE HM 1.0。 用 SSM (附录 C)、 比 特 率 、PSNR、BD 测度 [ E79, E80, 
E94] 和 计算 时 间作 为 指标 来 比较 HEVC (h265. net) 和 H.264/AVC (用 
JM 软件 ) 的 性 能 。 请 使 用 WD 8.0 [E58]. 

在 文档 JCTVC- G399 r2 P, Li 比较 了 HEVC WD4 Ail H. 264/ AVC 高 档次 的 
压缩 性 能 。 请 基于 几 个 测试 序列 在 不 同比 特 率 下 用 HEVC WD7 和 H. 264/ 
AVC 最 新 的 JM 软件 实现 这 种 比较 。 和 以 前 一 样 ，SSIM (附录 C), PSNR, 
比特 率 、BD 测度 [E79, E80, E94] 和 实现 复杂 度 作为 指标 。2011 年 11 
H 21-30 日 ， 瑞 士 日 内 瓦 ，JCT- VC 第 7 届 会 议 ( 比较 HEVC 工作 草案 4 和 
H. 264/ AVC 高 档次 的 压缩 性 能 ) 。 

请 访问 J. S. Park and T. Ogunfunmi, “A new approach for image quality assess- 
ment”, ICIEA 2012, Singapore, 18-20 July 2012. 他 们 制订 出 了 一 种 主观 指 
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标 (类 似 于 SSM) 用 于 评价 基于 (8 x8) 2D- DCT 的 视频 质量 。 他 们 认 
为 , 与 SSIM (指标 C) 相 比 实现 该 指标 相当 容易 ， 而 在 性 能 上 它 接 近 于 
SSIM。 请 基于 各 种 已 有 的 工具 评价 这 一 指标 。 还 要 考虑 (8x8) 之 外 的 
(4x4) 和 (16 x16) 的 2D- DCT; 这 一 概念 可 被 推广 到 整数 DCT 吗 ? 
DCT 可 被 DST (离散 正弦 变换 ) 取代 吗 ? 
请 访问 Dong and Ngan, “Adaptive pre- interpolation filter for high efficiency 
video coding”, J. VCIR, vol. 22, pp. 697-703, Nov. 2011, Dong 和 Ngan 
[E14] with TA Aaa DLA TURK at (APIF: adaptive pre- interpolation 
filter) Ja Be—T ty HE BY A dai de Bea [E69]。 他 们 已 经 将 APIF 集成 到 
VCEG 的 参考 软件 KTA 2.6 并 且 已 经 与 不 可 分 离 的 自 适 应 内 插 滤波 器 
(AIF, Adaptive Interpoation Filter) 和 自 适 应 环 路 滤波 右 (ALF, Adaptive 
Loop Filter) 进行 了 对 比 。 他 们 使 用 各 种 高 清 序列 已 经 证 明 ， 以 很 低 的 复 
杂 度 APIF 的 性 能 超越 AIF 或 ALF， 而 且 与 AIF + ALF 可 以 比拟 。 请 实现 
APIF 并 证 实 他 们 的 结论 。 
请 访问 Ding 等 人 ” Fast mode dependent directional transform via butterfly- 
style transform and integer lifting steps”, J. VCIR, vol. 22, pp. 721- 726, 
Nov. 2011 [E14]。 他 们 通过 整数 提升 步骤 提出 了 一 种 面 癌 快速 MDDT 的 
新 设计 。 这 个 方案 能 够 显著 降低 MDDT 的 复杂 度 ， 而 编码 性 能 方面 的 损 
失 可 忽略 不 计 。 请 用 整数 提升 步骤 开发 (4x4) 和 (8x8) 的 MDDT 并 
利用 视频 测试 序列 与 DCT 和 BSTM ( 蝶 形 变换 矩阵) 进行 性 能 比较 。 
请 访问 Li et al. “Compression performance of high efficiency video coding 
( HEVC) working draft 4”, IEEE ISCAS, pp. 886-889, Seoul, Korea, May 
2012 [E20]。 他 们 已 经 用 各 种 测试 序列 比较 了 HEVC (WD4) Fil H. 264/ 
AVC (JM 18.0) 的 性 能 。 他 们 认为 WD4 对 于 随机 访问 应 用 市 约 了 大 约 
39% 的 比特 率 (对 于 相同 的 PSNR) 、 用 于 低 时 延 场合 站 约 44% 、 用 于 所 
有 的 帧 内 编码 节约 25% 。 请 重复 这 些 测试 。 
请 访问 论文 E. Alshina, A. Alshin and F. C. Fernandez, “Rotational transform for 
image and video compression”, IEEE ICIP, pp. 3689-3692, 2011 (JLAI5. 14). 




















帧 内 预测 


输出 (二 维 道 DCTJ)-1 


K 5.14 仅 用 于 帧 内 预测 残 差 的 DCTZROT 框图 


Alshina, Alshin 和 Fernandez 将 ROT4 用 于 4 x4 的 块 ， 将 ROT8 用 于 所 
有 其 他 情况 下 的 左上 子 和 矩阵 (参见 论文 中 的 图 2 和 图 3)， 而 且 表 明 ， 
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对 于 所 有 的 测试 序列 平均 起 来 有 2.5% 的 BD 率 增 量 (参见 论文 的 
表 4)。 请 用 测试 序列 实现 这 个 技术 并 证 实 以 上 结果 ( ROT- rotation 
transform, ， 旋 转变 换 ) 。 

请 访问 Saxena 和 Fernandez 提交 的 文档 JCTVC- C108, Oct. 2010, CHH: 
Jointly optimal prediction and adaptive primary transform ) 。 他 们 对 于 次 变换 
(ROT) 打开 或 关闭 的 这 两 种 情况 下 ， 比 较 了 提出 的 作为 主 变换 的 自 适 应 
DCT/DST 45 16 x16, 32 x32 和 64 x64 块 的 帧 内 预测 中 的 DCT。 请 实现 
该 方案 并 证 实 该 文档 中 的 表 2 和 表 3 给 出 的 结果 。 利 用 TMuC 0. 7。 

在 瑞典 斯 德 哥 尔 摩 的 JCT- VC 会 议 上 ， 自 适应 DCT/DST 已 被 去 掉 了 。 定 
向 DCT [E110 (对 于 和 目 适应 帧 内 方向 预测 的 残 差 ) 也 不 被 考虑 。 因 而 方 
问 次 变换 也 不 被 考虑 ( 见 P.5.13)。 只 有 从 面向 4 x4 大 小 的 亮度 帧 内 预 
测 残 差 推导 出 的 一 个 变换 ， 和 面向 所 有 其 他 情况 ( 帧 内 和 帧 间 ) 的 整数 
DCT 被 采用 了 。DDCT 和 ROT (旋转 变换 ) 对 岁 像 质量 贡献 及 其 微小 ， 
但 代价 是 在 实现 复杂 度 方 面 需要 显 车 的 增加 。 

参见 Saxena and Fernandez 的 论文 “On secondary transforms for prediction 
residuals” , IEEE ICIP 2012, Orlando, FL, 2012 [ E24 ] 。 他 们 将 模式 相关 
的 DCTADST HF (4x4) 大 小 的 块 的 帧 内 和 帧 间 预 测 残 差 。 对 于 所 有 其 
他 情况 ，( 即 4 x4 之 外 的 帧 内 和 帧 间 尺 寸 )， 他 们 在 主 变 换 2D- DCT 之 后 
又 对 左上 低频) 系数 施加 了 次 变换 。 与 没有 进行 次 变换 的 情况 相 比 ， 
这 种 方法 对 于 各 种 测试 序列 都 导致 了 B-D 率 的 提高 ( 见 表 1-3) 。 请 实现 
这 个 方案 并 给 出 类 似 表 1-3 WAR, 

请 访问 Zhang and Ma, “Fast intra prediction for high efficiency video coding” , 
Pacific Rim Conf. on Multimedia, PCM 2012, Singapore, Dec. 2012 [ E42 ]. 
(http; //cement. ntu. edu. sg/ pcm2012/ index. html ) 

Zhang 和 Ma [E42] 提出 了 一 种 新 的 PU 级 的 帧 内 预测 方法 并 实现 了 
HEVC 编码 时 间 的 大 幅 降 低 ， 代 价 是 比特 率 有 可 忽略 的 增加 以 及 可 忽略 的 
PSNR 损失 。 请 实现 这 个 。 他 们 建议 ， 他 们 的 源 代码 是 开源 的 而 且 只 能 用 
于 研究 目的 (http; //vision. poly. edu/ ~ zma03/opensrc/sourceHM6. zip) 。 
请 参见 P. 5. 16。 作 者 也 建议 将 其 他 研究 者 的 类 似 方法 〈 见 本 文 的 5.2 部 
分 ) 与 他 们 的 工作 结合 起 来 进一步 降低 编码 时 间 。 请 再 参见 [ E41 ] 和 这 
篇 论文 后 面 的 参考 文献 ， 探 索 一 下 。 

请 参见 P. 5. 17。 作 者 Zhang 和 Ma [EM2] 也 计划 探索 降低 帧 间 预 测 模式 
复杂 度 的 可 能 性 。 请 研究 一 下 。 

请 参阅 P. 5. 16 到 P. 5. 18。 将 两 种 能 使 HEVC 编码 需 实 用 化 的 复杂 度 降 减 
技术 〈 帧 内 / 帧 间 预 测 模式 ) 综合 起 来 ， 并 评价 压缩 性 能 损失 可 忽略 时 
HEVC 编码 带 复 杂 度 降 减 的 范围 。 
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TENE AS P. 5. 17 到 P. 5. 19 都 是 面向 研究 的 专题 ， 可 作为 硕士 和 博士 论文 的 
选 题 。 

请 访问 M. Zhang, C. Zhao and J. Xu, “An adaptive fast intra mode decision in 
HEVC” , IEEE ICIP 2012, Orlando, FL, Sept. - Oct. 2012 [E41], 。 通 过 利用 
来 自 粗 略 模式 判决 的 块 纹理 特征 ， 以 及 通过 残 差 四 又 树 分 裂 过 程 的 进一步 
简化 ， 他 们 提出 的 方法 在 所 有 帧 内 编码 高 效率 测试 条 件 和 所 有 帧 内 编码 低 
复杂 度 测 试 条 件 下 ， 分 别 节约 15% 和 20% 的 编码 时 间 ， 同 时 BD 率 只 有 微 
不 足 道 的 增加 [E79，E80，E94 ]。 请 通过 实现 他 们 的 方法 来 证 实 这 些 测 试 


E 
结 








参见 论文 Nightingale et al. “HEVStream; A framework for streaming and eval- 
uation of high efficiency video coding (HEVC) content in loss- prone networks” , 
IEEE Trans. Consumer Electronics, vol. 59, pp. 404-412, May 2012 [ E55], 
他 们 设计 并 实现 了 一 个 HEVC 编码 视频 流 的 流 媒 体 和 评价 框架 ,并 在 各 
种 网 络 条 件 下 测试 其 性 能 。 报 道 了 使 用 某 些 推荐 的 测试 条 件 ( 见 表 3) 
时 ， 应 用 市 宽 、 丢 包 率 和 路 径 时 延 限制 对 接收 到 的 视频 流质 量 (PSNR ) 
的 影响 。 实 现 并 证 实 这 些 测 试 。 除 了 PSNR 之 外 ， 使 用 SSIM ( 见 附录 C) 
和 BD (E79, E80, E94) 率 作为 比较 目的 的 基准 。 

参见 P. 5. 21。 如 未 来 的 工作 而 言 ， 作 者 们 提出 要 专注 于 合适 的 包 LNAL 单 
元 的 优先 次 序 方案 的 发 展 ， 该 方案 用 于 HEVC 的 选择 性 丢弃 方案 。 请 探 
索 一 下 ， 作 为 能 得 出 进一步 结论 的 研究。 


参见 论文 Marpe et al. , “Improved video compression technology and the emer- 











ging high efficiency video coding standard” , IEEE International Conf. on Con- 
sumer Electronics, pp. 52-56, Berlin, Germany, Sept. 2011 [E56], RÆ 
Fraunhofer HHI 的 作者 提出 了 一 种 新 的 视频 编码 方案 ， 与 H. 264/ AVC 高 
档次 相 比 能 节约 大 约 30% 的 比特 率 ， 代价 是 计算 复杂 上 度 的 明显 提高 。 几 
个 对 比特 率 降 低 有 贡献 的 特征 已 经 被 探索 过 。 请 实现 这 个 建议 并 证 实 带 
宽 的 降低 。 探 索 一 下 各 种 成 功用 于 H. 264/AVC 编码 器 ( 见 第 4 章 ) 降低 
复杂 度 的 技术 。 这 些 和 其 他 方法 有 和 希望 能 产生 类 似 于 HEVC 编码 人 复杂 
度 降低 的 结 

参见 论文 Budagavi and Sze, “Unified forward + inverse transform architec- 
ture for HEVC” , IEEE ICIP 2012, Orlando, FL, Sept. - Oct. 2012 [ E33], 
他 们 利用 了 HEVC 的 核心 变换 的 几 个 对 称 特 性 并 表明 ， 联 合 实现 CRA 
多 种 块 太 才 的 变换 ， 在 前 向 和 逆 回 变换 之 间 保持 对 称 ， 等 等 ) 产生 比 前 
向 和 逆向 核心 变换 独立 实现 低 43 色 ~45% 的 面积 。 他 们 在 图 2 和 图 3 中 分 
别 给 出 了 统一 的 前 向 + 逆向 4 点 和 8 点 变换 的 结构 。 请 开发 统一 的 前 向 + 
BEH 16 点 和 32 点 变换 的 类 似 结构 。 注 意 ， 这 需要 导出 类 似 于 这 篇 文章 方 
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程 10-17 所 描述 的 16 点 和 32 点 变换 的 方程 。 

参见 P. 5. 25。 作 者 们 声称 在 前 各 和 逆向 变换 之 间 共 享 的 硬件 已 经 能 将 面 
积 降低 超过 40% 。 证 明 这 个 结论 。 

在 转 码 领域 ， 一 些 人 研究 者 们 已 经 开发 、 设 计 、 测 试 和 评价 过 H. 264/AVC、 
AVS China, DIRAC, MPEG-2 和 VC-1 之 间 的 转 码 器 。 请 开发 一 个 在 
H. 264/AVC (第 4 章 ) 和 HEVC (EPR) 之 间 的 转 码 系统 。 使 用 HM9 。 
参见 [E93], 

重复 P. 5.26, 在 MPEG-2 和 HEVC ( 主 档次 ) 之 间 转 码 。 

重复 P. 5.26, Æ DIRAC (第 7 章 ) 和 HEVC ( 主 档次 ) 之 间 转 码 。 

重复 P.5.26, 在 VC-1 (第 8 章 ) 和 HEVC ( 主 档次 ) 之 间 转 码 。 

重复 P.5.26, Æ AVS China (第 3 章 ) 和 HEVC ( 主 档次 ) 之 间 转 码 。 
如 同 H. 264/AVC (第 4 章 ) HEVC 只 包含 视频 编码 。 为 了 用 户 的 可 实现 
性 和 有 用 性 ， 需 要 将 音频 于 HEVC 的 编码 视频 集成 在 一 起 。 请 在 发 送 端 
复 用 编码 比特 流 之 后 ， 与 音频 编码 吉 诸 如 AAC, HEAAC 等 一 起 对 HEVC 
视频 进行 编码 。 保 持 对 口 型 是 接收 机 的 功能 ， 请 对 两 个 比特 流 进 行 解 复 
用 ， 接 着 对 音频 和 视频 进行 解码 。 对 于 各 种 视频 空间 分 辨 率 和 多 通道 音 
频 实 现 这 些 方案 。 这 包括 硕士 和 博士 阶段 上 的 几 个 研究 领域 。 这 些 集 成 
方案 已 经 面向 H.264/AVC、Dirac 和 AVS China 与 音频 编码 器 完成 了 
实现 。 

类 似 于 H. 264/ AVC 高 的 视频 质量 被 广播 工作 室 (不 是 为 了 传输 /分 布 ) 
所 需要 ，HEVC 帧 内 编码 只 能 被 探索 。 请 在 各 种 比特 率 下 用 不 同 的 测试 视 
频 比 较 HEVC 帧 内 编码 与 H. 264/AVC 帧 内 编码 和 JPEG2000。 用 MSE/ 
PSNR/SSIM/BD 率 [E79, E80, E94] 和 实现 复杂 度 作 为 比较 指标 。 

在 [E60], Ohm 等 在 不 同 的 比特 率 下 ， 用 各 种 测试 视频 ， 以 PSNR 和 主 
观 质量 作为 指标 比较 了 HEVC 和 较 早 的 标准 如 H. 262/MPEG- 2 视频 、 
H. 263, MPEG-4 视觉 (第 2 部 分 ) 和 H.264/AVC 的 编码 效率 。 他 们 也 
指出 ， 产 生 所 选 结果 的 软件 和 测试 序列 可 以 从 ftp: //ftp. hhi. de/ieee- tesvt/ 
2012/ 进 行 访问 。 

请 重复 这 些 测试 并 验证 他 们 的 结果 。 注 意 ， 用 于 度量 主观 质量 的 DSIS 需 
要 巨大 的 测试 设备 、 对 象 ( 生 手 和 专家 ) 、 且 可 能 超出 了 许多 实验 室 的 能 
提供 的 条 件 。 

H SSIM (附录 C) 和 BD- 率 [E79, E80, E94] 作为 性 能 指标 重复 P. 5. 33, 
并 评价 这 些 结 果 如 何 与 基于 PSNR 的 结果 进行 对 比 。 

Horowitz 等 [E64] 用 各 种 测试 序列 在 不 同比 特 率 下 比较 了 HEVC 
(HM7. 1) 一 一 主 档次 / 低 时 延 配 置 一 一 和 用 于 低 时 延 的 H. 2647 AVC 高 档 
次 (JM18.3)。 为 了 补充 这 些 结 果 ， 产 品质 量 级 的 叫 作 x264 的 H. 264/ 
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AVC (第 4 章 ) 编码 器 与 一 个 产品 质量 级 的 来 目 eBrisk Video ( VideoLAN 
x264 软件 库 http://www. videolan. org/developers/x264. html version 版 本 
core 122 12184, 2012 年 3 A) AY HEVC 实现 软件 进行 了 比较 。 他 们 得 出 
结论 ， 对 于 低 时 延 应 用 ， 与 H.264/AVC 相 比 ，HEVC 在 平均 约 为 前 者 
50% 的 比特 率 上 一 般 会 产生 更 好 的 主观 质量 。 请 注意 ，x264 的 配置 细节 
可 以 从 作者 那里 获得 ， 如 果 您 提出 请 求 的 话 。 有 关 主 观 质量 /测试 的 几 篇 
论文 在 [E44] 中 被 引用 。 请 用 PSNR, BD 率 [ E79, E80, E94] 和 
SSIM (附录 C) 作为 性 能 指标 重复 这 些 测 试 并 评价 这 些 指标 如 何 能 与 主 
观 质 量 建 立 联系 。 

Bossen 等 人 [E61] 给 出 了 一 个 详细 而 全 面 的 有 关 HEVC 复杂 度 (编码 带 
和 解码 器 ) 的 报道 并 与 H. 264/AVC 高 档次 (第 4 章 ) 进行 了 对 比 。 他 们 
得 出 结论 ， 对 于 类 似 的 视觉 质量 ，HEVC 编码 器 比 H. 264/AVC 编码 器 复 
杂 好 几 倍 。 回 报 是 ，HEVC 以 H. 264/AVC 所 需 比 特 率 的 一 半 就 能 实现 与 
H. 264/AVC 相同 的 视觉 质量 。 男 一 方面 ，HEVC 的 解码 硕 复 杂 度 类 似 于 
H. 264/AVC 的 解码 器 复杂 度 。 他 们 声称 ， 手 持 /移动 设备 、 笔 记 本 电脑 、 
台式 机 、 平 板 电脑 等 都 能 解码 并 显示 编码 的 视频 比特 流 。 这 样 ， 实 时 的 
HEVC 解码 句 就 是 实用 又 可 行 的 。 他 们 的 优化 软件 解码 器 〈 关 于 它 的 优化 
性 没有 声明 ) 不 依赖 多 线程 上 且 没 有 用 ARM 和 X64 计算 机 进行 任何 的 并 行 
化 。 请 在 不 同 的 比特 率 下 对 于 不 同 的 测试 序列 实现 这 个 软件 ， 并 探索 进 
一 步 优化 的 其 他 手段 。 

列 在 FDIS (2013 年 1 月 ) 里 的 HEVC 的 三 个 档次 之 一 是 只 有 帧 内 (图 
像 ) 编码 。 请 实现 这 个 HEVC 的 编码 模式 ， 并 以 MSE/PSNR, SSIM ( 附 
KC) 和 BD 率 [E79, E80, E94] 作为 指标 ， 与 其 他 图 像 编 码 标准 诸如 
JPEG2000, JPEG-LS, JPEG-XR 和 JPEG (M&F) 进行 比较 。 如 以 前 一 
样 ， 请 在 不 同 的 空间 分 辨 率 和 比特 率 下 用 各 种 测试 序列 进行 这 种 对 比 。 
除了 多 视 /3D 视频 编码 之 外 ， 可 伸缩 视频 编码 (时 间 、 空 间 和 SNR 质量 
E) Æ HEVC [ E59, E68, E73, E74, E117] 的 扩展 /附加 内 容 之 一 。 
可 伸缩 编码 (SVC, Scalable Video Coding) 目前 限于 两 层 (基本 层 和 增强 
层 ) SVC 是 H. 264/AVC 的 扩展 内 容 之 一 ， 而 且 有 关 它 的 专刊 已 被 出 版 
[E67], SVC 软件 在 线 可 得 http: //ip. hhi. de/omagecom _GI/savce/down- 
loads/SVC- Reference- software. htm [ E68 ] 。 请 设计 、 开 发 并 实现 HEVC 中 
这 三 种 不 同 的 伸缩 性 。 

Sze 和 Budagavi [ E65] 提出 了 实现 CABAC (HEVC 的 主要 挑战 ) 的 几 项 
ER, CABAC 能 产生 更 高 的 信息 流量 、 更 高 的 处 理 速 度 和 较 低 的 硬件 成 
本 ， 而 不 会 影响 高 的 编码 效率 。 请 回顾 这 些 方法 的 细节 并 验证 这 些 益处 。 
[E71] 清楚 地 解释 了 HEVC 去 块 效 应 滤波 需 的 细节 。 他 们 指出 ， 与 
























































H. 264/AVC AH EK, IX MEARE T H A Zh, ELA ER 
的 计算 复杂 度 和 多 核 环 境 下 更 好 的 并 行 化 可 能 。 基 于 三 种 配置 : (1) 全 
部 帧 内 ; (2) 随机 访问 ; (3) 低 时 延 ， 他 们 用 测试 序列 验证 了 这 些 结论 。 
请 浏览 这 篇 论文 和 文 后 引用 的 相关 参考 文献 ， 并 通过 运行 仿真 来 证 实 这 
些 结果 。 


— =A 

Lakshman 等 [E69] 使 用 最 小 支撑 的 最 大 阶 内 搬 来 估计 运动 补偿 预测 中 
的 分 数 像 素 ， 开 发 了 一 个 通用 的 内 插 框 架 。 与 6 抽 头 和 12 抽 头 滤波 器 
[E107] 相 比 ， 他 们 的 技术 显示 了 改善 的 性 能 ， 特 别 是 对 于 带 有 精细 的 空 
间 细 贡 的 序列 。 然 而 ， 这 可 能 会 提高 复杂 度 和 时 延 。 请 开发 并 行 处 理 技 
术 来 降低 时 延 。 

参见 P. 5. 41。 源 码 、 复 杂 度 分 析 和 测试 结果 Lakshmanet al., “CE3; Luma 
interpolation using MOMS”, JCT- VC D056, Jan. 2011” 可 以 下 载 : http:// 
phenix. int- evry. fr/jct/doc_end_user/documents/4_Deagu/wg11/JCTVC- D056- 
v2. zip. 这 是 [E69] 引用 的 参考 文献 6。 请 详细 地 执行 这 一 复杂 度 分 析 。 
Correa 等 [E82] 研究 了 HEVC 编码 能 的 编码 效率 和 计算 复杂 度 。 请 通过 
考虑 16 种 不 同 的 编码 配置 集合 来 实现 这 一 分 析 。 

参见 P. 5. 44。 证明: 低 复杂 度 的 编码 配置 能 实现 可 比拟 于 高 复杂 度 编 码 
器 的 编码 效率 ， 如 草案 8 [E58] 所 描述 。 

参见 P. 5. 43 Correa 等 探究 的 效率 和 复杂 度 分 析 包 括 的 工具 ( 非 方 形变 
换 、 自 适应 滤波 器 和 LM 亮度 ) 在 后 来 的 HEVC 草案 标准 中 被 去 把 了 。 请 
通过 丢弃 这 三 个 工具 来 进行 这 个 分 析 。 

Schierl 等 在 他 们 的 论文 “System layer integration of HEVC” [E81] 中 建议 ， 
HEVC 的 运用 错误 隐藏 应 该 在 实现 中 要 仔细 考虑 ， 是 一 个 进一步 研究 的 话 
题 。 请 详细 阅读 这 篇 论文 并 探究 HEVC 的 各 种 抗 误 码 工具 。 请 注意 ， 许 
多 H. 264/AVC (第 4 章 ) 的 抗 误 码 工具 诸如 FMO、ASO、 宛 余 分 片 、 数 
据 分 裂 和 SP/SI 帧 由 于 在 现实 应 用 中 很 少 调用 而 被 去 除了 。 

请 实现 由 Zhou 等 [E83] 提出 的 HEVC 主 档 次 无 损 编码 并 验证 他 们 的 结 
果 。 在 不 同 分 辨 率 和 比特 率 下 ， 基 于 几 个 测试 序列 再 与 当前 的 无 损 编 码 
方法 诸如 JPEG-2000 等 进行 比较 〈 人 参见 附录 了 ) 。 比 较 指 标 是 PSNRZMSE、 
SSIM (附录 C)、BD 率 [E79, E80, E94] 等 。 也 要 在 比较 中 考虑 实现 
的 复杂 度 。 

Cai 等 [El12] 也 针对 无 损 和 有 损 模 式 对 比 了 HEVC, H. 264/AVC, 
JPEG2000 和 JPEG- LS 的 性 能 。 对 于 有 损 模 式 ， 他 们 的 比较 只 是 基于 
PSNR = (69PSNR, + PSNR, + PSNR, )/8。 这 是 针对 4:2:0 格式 的 。 基 于 
SSIM (附录 C)、BD X [E79, E80, E94] 和 实现 复杂 度 ， 扩 展 这 个 对 
比 。 也 要 在 此 比较 中 包括 JPEG- R， 它 是 基于 微软 的 HD- Photo 的 (ULB 
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录 下 ) 。 他 们 他 们 提供 了 一 个 有 关 儿 个 标准 帧 内 编码 性 能 比较 的 范围 很 广 
的 参考 文献 列表 。 为 见 P. 5. 37。 

参见 [ E93] 。 通 过 利用 一 个 对 修改 的 运动 矢量 重新 使 用 ， 提 出 了 一 个 从 
H. 264/AVC 到 HEVC 有 效 的 转 码 舌 。 其 中 也 包含 了 复杂 度 可 扩展 性 以 平 
衡 为 降低 复杂 度 而 损失 的 率 失 真性 能 。 请 实现 这 个 转 码 需 并 访问 [E93 | 
后 面 引用 的 有 关 转 码 综述 的 参考 文献 (4-7) 。 

参见 P. 5. 48。[ E93] 的 作者 建议 ，H. 264/AVC 的 更 多 信息 可 被 重新 用 于 
转 码 硕 中 来 进一步 降低 转 码 硕 的 复杂 度 ， 这 可 作为 未 来 的 工作 。 请 详细 
探索 这 一 建议 并 看 看 转 码 器 复杂 度 如 何 被 进一步 降低 。 提 出 的 技术 必须 
基于 对 比 指标 进行 证 明 (JL P.5. 47) 。 

参见 P. 5. 48 和 了 .5.49。 可 以 开发 其 他 几 个 转 码 器 ， 也 就 是 说 : 

(a) MPEG-2 和 HEVC 之 间 的 转 码 需 〈 仍 然 有 许多 基于 MPEG-2 的 解码 
ax) 请 访问 [ E95] Shanableh et al. “MPEG-2 to HEVC video transcoding 
with content- based modeling”, IEEE Trans. CSVT, vol. 23, 2013 (即将 出 
We). FETERE T PEP ABEL a SI a TERRI 
部 分 ， 他 们 提出 了 未 来 的 工作 ， 请 探索 一 下 。 在 摘要 中 他 们 陈述 “因为 
这 是 首次 报道 MPEG-2 到 HEVC 视频 转 码 的 工作 ， 所 以 该 报道 结果 可 作为 
未 来 转 人 码 研 究 的 一 个 参考 基准 ”这 是 在 转 码 领域 中 一 个 挑战 性 的 研究 。 
(b) AVS China (第 3 Æ) 和 HEVC 之 间 转 码 器 。 

(c) VC-1 (第 8 章 ) 和 HEVC 之 间 的 转 码 器 。 

请 实现 这 些 转 码 项 。 注 意 ， 这 些 研究 专题 具有 硕士 论文 水 平 。 

您 可 以 访问 从 网 址 http://www- ee. uta. edu/dip 访问 已 被 实现 为 硕士 论文 
的 这 些 相关 转 码 右 ， 点 击 读 程 然后 点 击 EE5359。 或 者 直接 访问 http: // 
www- ee. uta. edu/ Dip/ Courses/ EE5359/index. html. 

请 访问 [E70] 。 这 篇 论文 描述 了 在 标准 制订 的 早期 ， 提 交 给 HEVC 标准 
化 工作 的 低 复 杂 度 高 性 能 的 视频 编码 。 这 个 提案 的 一 部 分 被 TMuC 所 采 
纳 。 这 个 提案 叫 作 Tandberg, Ericssson 和 Nokia 测试 模型 (TENTM)。 请 
实现 这 个 提案 并 验证 结果 。TENTM 提案 可 以 从 这 篇 论文 最 后 引用 的 参考 
文献 5 中 碍 到 。 

[E70] 引用 的 参考 文献 3 (也 是 网 址 ) 是 指 由 三 星 和 英国 广播 公司 (在 
线 ) 提出 视频 编码 技术 。 请 实现 这 个 提案 。 

[E70] 引用 的 参考 文献 4 是 指 由 Fraunhoff HHI (在 线 ) 提出 的 视频 编码 
技术 。 请 实现 这 个 提案 。 

请 从 UTAZDIP 网 址 课程 EE5359 访问 Gangavathi 的 硕士 论文 ， 题 名 为 
Complexity reduction of H. 264 using parallel programming。 通 过 使 用 CUDA, 
他 在 基本 档次 中 降低 了 H. 264 编码 器 复杂 上 度 的 50% 。 请 把 这 种 方法 扩展 
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到 H. 264 (第 4 章 ) 的 主 档次 和 高 档次 。 

请 参见 P. 5. S4。 用 香干 测试 序列 在 不 同 的 比特 率 下 讲 Gangavathi 的 方法 
扩展 到 HEVC。 用 编码 器 复杂 度 的 降 减 程度 给 出 性 能 结果 ， 并 以 SSIM 
(附录 C)、BD- PSNR、BD 比特 率 [E79, E80, £94] 和 PSNR 为 指标 评 
价 这 个 方法 。UTA/AEE5359 课程 网 址 : http: //wwwee. uta. edu/ Dip/ Cour- 
ses/ EES359/ mdex. html. 

Zhang, Li 和 Ti [E106] 开发 了 一 种 基于 梯度 的 快速 判决 算法 用 于 HEVC 
的 帧 内 预测 。 它 既 包 括 预 测 单元 (PU) 尺寸 又 包括 角度 预测 模式 。 他 们 
声称 ， 与 HM 软件 相 比 ， 在 HE 帧 内 编码 环境 中 节约 56. 7% 的 编码 时 间 , 
在 帧 内 低 复 杂 度 环境 中 高 达 70. 86 [E95 ] 。 请 实现 这 个 算法 并 验证 他 们 的 
结果 。 

请 参见 P. 5. 56。 在 结论 部 分 ， 作 者 们 关于 结合 用 在 HEVC 中 的 率 失 真 优 
化 技术 如 何 对 复杂 纹理 图 像 获 得 精确 的 编码 单元 分 裂 。 请 探索 一 下 。 
Wang 等 [E108] 给 出 了 有 关 多 符号 比特 隐藏 方案 的 人 研究，HEVC 采用 了 
该 方案 。 这 项 技术 利用 数据 隐藏 方法 解决 了 量化 变换 系数 编码 的 联合 设 
计 问 题 。 他 们 也 给 出 ， 这 种 方法 对 于 所 有 标准 的 测试 图 像 总 能 一 致 地 改 
善 率 失真 性 能 ， 使 HEVC 总 体 上 产生 了 编码 增益 。 就 未 来 的 工作 而 言 ， 
他 们 认为 ,通过 讲 数据 隐藏 技术 应 用 于 其 他 语法 元 素 ， 还 有 指望 得 到 和 额 
外 的 增益 。 请 探索 一 下 这 个 问题 。 

请 参见 P. 5. 58。 作 者 们 的 意见 是 ， 联 合 量化 和 炉 编 码 的 设计 问题 保持 开 
放 。 请 探索 这 个 问题 。 

Lv 等 [E114] 利用 在 ARM 处 理 器 上 的 SIMD 指令 开发 了 一 种 快速 有 效 的 
方法 用 于 运动 估计 /运动 补偿 时 加 速 四 分 之 一 像素 的 内 插 。 他 们 声称 ， 这 
个 方法 比 基 于 HEVC 参考 软件 HM 5. 2 速度 快 5 倍 。 请 参见 5.5 部 分 的 详 
细 加 速 结果 ， 利 用 NEON 技术 验证 他 们 的 结 

Shi 等 [E74] 为 HEVC 提出 了 一 个 有 效 的 空间 可 伸缩 的 视频 编码 (SSVC ， 
Spatially Scalable Video Coding) 方案 。 他 们 使 用 两 层 帧 内 预测 方案 ， 通 过 
一 些 测试 序列 与 其 他 SSVC 方案 相 比 ， 他 们 证 明了 他 们 的 技术 的 优越 性 。 
在 结论 部 分 ， 他 们 建议 未 来 的 工作 要 进一步 提高 他 们 方法 的 性 能 。 请 详 
细 探 索 一 下 这 个 方案 。 

Zhou 等 [E121] 通过 简单 地 绕 过 变换 、 量 化 和 环 路 滤波 器 实现 了 HEVC 
主 档次 的 无 损 编码 ， 并 且 与 其 他 无 损 编 码 方法 进行 了 比较 诸如 ，JPEG- 
2000, ZIP, 7-Zip, WinRAR 等 。 请 实现 这 个 方法 并 与 JPEG. JPEG- XR, 
PNG 进行 对 比 ， 考 虑 将 实现 复杂 度 作 为 另 一 个 指标 ， 在 对 比 中 也 要 卡 率 
BD 率 [E79，E80，E94] 和 SSIM (附录 C). 

其 他 文献 包括 [E124- E127 |] 等 提 到 了 将 可 伸缩 视频 编码 扩展 到 HEVC, 
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请 复习 这 些 文献 并 实现 空间 /质量 (PSNR)/ 时 间 的 可 扩展 性 。 

请 访问 [ E64] 。 在 这 篇 论文 中 ，Horowitz 等 说 明了 使 用 HM7.1 和 JM18. 3 
软件 ，HEVC 以 H.264/AVC 的 一 半 比 特 率 产生 类 似 的 主观 质量 。 用 
eBrisk 和 x264 软件 也 可 得 出 类 似 结 论 。 请 使 用 最 新 的 HM 软件 ， 对 视频 
测试 序列 进行 类 似 的 测试 并 证 实 这 些 结果 ， 考 虑 将 实现 复杂 度 作 为 另 一 
个 比较 指标 。 








第 6 章 VP6 视频 编码 标准 


摘要 : 给 出 了 由 0n2 科技 公司 制订 的 VPO 的 编码 器 /解码 器 细节 ， 强 调 了 
H.264 (第 4 章 ) 和 VP6 之 间 功 能 的 相似 性 ， 指 出 了 二 者 的 差异 如 黄金 帧 (golden 
frames), w3% 2| Y Google (2010 年 Google 收购 了 On2 科技 公司 ) 开发 的 VPO 相关 
的 开源 视频 编译 码 资 源 。 

关键 词 : VP6 On2 科技 Google Flash 编译 码 HAW 无 限制 运动 矢量 
预测 环 路 滤波 解码 EK S44 A BoolCoder 








6.1 AJ 


on 


TrueMotion VP6 [P3] 来 自 0n2 技术 股份 有 限 公 司 。Adobe 公司 批准 它 作 为 
Flash 产品 套装 [P2], VFA Flash 8 和 以 后 版 本 的 主要 编译 码 的 部 分 。 由 于 它 在 很 
高 压缩 比 的 情况 下 给 出 很 好 的 质量 ， 所 以 有 一 些 有 趣 的 特征 。TrueMotion VP6 是 市 
场 上 最 好 的 视频 编译 码 系统 之 一 。 按 照 0n2 技术 公司 ， 它 能 提供 比 视窗 媒体 视频 
( Windows Media Video 9) [C16], Real Video9 [R1]. H. 264 [S10] 和 QuickTime 
MPEG-4 更 好 的 图 像 质量 和 更 快 的 解码 性 能 。 在 0n2 技术 公司 内 部 进行 的 测试 中 ， 
用 标准 的 MPEG-2 测试 视频 剪辑 ， 在 比较 PSNR 的 时 候 ，TrueMotion VP6 能 够 击败 
H. 264 的 许多 实现 方案 、Window Media Video 9 和 Real Networks 10, VP6 的 视频 前 
辑 更 具 细 节 且 包含 比 Windows Media Video 9 HPA HIE, mH LK Real Video 或 
H. 264 保持 了 更 多 的 纹理 和 细节 [P31]。 

VP6.2, TrueMotion VP6 的 最 新 版 本 ， 其 特征 是 与 以 前 版 本 VP6 相 比 ， 性 能 上 
有 显著 的 提高 [P3 ] 。 


6.2 与 以 前 的 Flash 编译 码 系 统 MX 相 比 


2005 年 Adobe 接受 VP6 IFLA Flash。VP6 能 够 提供 明显 好 于 以 前 Flash 编译 
码 系统 MX 的 性 能 ， 后 者 使 用 基于 H. 263 的 Sorenson Spark 编译 码 系 统 [ 35 ] 。0n2 
科技 公司 签发 了 VP6 的 许可 证 。[ P3] 的 作者 提供 了 VP6 编码 的 Flash MX 和 Flash 
视频 的 性 能 对 比 。 这 部 分 描述 的 结果 显示 了 在 多 方面 都 有 改进 。 

这 部 分 用 来 自 [P3] 的 引用 数据 和 图 片 描述 了 来 自 On2 科技 的 作者 们 的 比较 
研究 。 图 6.2 ~ 图 6.12 所 示 的 图 像 是 时 长 12 小 时 的 珊瑚 礁 探索 视频 节录 。 原 始 的 
视频 由 DV 摄像 机 拍摄 并 以 照片 -jpeg 格式 压缩 存储 [JP6]。 因 为 由 DV 摄像 机 拍 
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fx, 720 x468 的 DV 源 需 要 将 某 些 过 扫描 部 分 裁剪 摊 ， 而 且 也 要 去 隔行 并 改变 大 小 
为 320 x240 [P3], 

用 于 VP6 编码 的 工具 是 On2 技术 公司 的 Flix 专业 版 。 对 比 提供 了 Flix 支持 的 
单 通道 和 双 通 道 编码 。 这 项 研究 中 的 样 值 以 相当 低 的 比特 率 (KRA 150kbit/s) 进 
行 编码 。 在 网 6.1~ 图 6.12 中 ,左边 的 图 像 来 目 VP6， 右边 的 图 像 来 自 Flash MX 
视频 。 

至 于 颜色 ，Flash MX 中 的 H. 263 [S5] 实现 方案 中 颜色 有 过 饱和 现象 。 这 样 
导致 的 视频 看 起 来 很 “温暖 ”而 且 有 时 候 甚至 比 原始 视频 刺眼 一 些 。 对 于 0n2 ， 
他 们 的 目的 很 简单 : 保持 原始 视频 的 质量 。 如 有 果 你 专门 要 使 视频 过 饱和 从 而 给 它 一 
种 锐 化 的 效果 ， 你 当然 能 用 编码 工具 来 实现 ， 但 这 种 情况 不 应 该 脱离 你 的 控制 。 饱 
和 的 颜色 可 能 会 给 你 一 种 印象 ， 即 某 个 东西 比 它 实际 上 更 加 锐 化 。 如 果 有 怀疑 ， 请 
放大 一 幅 图 像 看 看 实际 情况 吧 (OLA 6.1), 图 6.1 并 非 来 自 珊瑚 礁 视频 。 按 照 作 
者 ， 左 边 的 VP6 图 像 更 加 接近 与 原始 图 像 。 











图 6.1 颜色 空间 比较 ; 上 忠实 于 原始 图 像 的 VP6 与 过 饱和 的 MX 版 本 [P3] 


图 6.2 的 两 幅 图 像 给 出 VP6 编码 技术 与 使 用 H. 263 编码 技术 的 MX 版 本 的 一 
种 比较 。 我 们 可 以 注意 到 ，VP6 干 得 相当 漂亮 ， 这 一 点 可 以 从 左边 的 图 像 看 出 来 ; 
而 右边 图 像 的 块 效 应 则 很 明显 [P3 ] 。 

图 6. 3 表明 ， 与 一 帧 内 的 与 MX 版 本 相 比 ，VP6 的 质量 是 多 么 得 一 致 。 在 MX 
图 像 中 ， 某 些 海 鞭 内 的 尖锐 细节 得 以 保持 ， 而 更 多 的 微妙 细节 变 得 明显 斑 鸡 。 

图 6. 4 的 两 幅 图 像 再 次 表明 MX 有 时 候 保持 了 多 么 尖锐 的 细节 ， 对 于 帧 的 其 余 
部 分 造成 很 大 的 危害 。 而 左边 的 VP6 样 例 中 的 鱼 和 背景 在 质量 上 则 更 加 平衡 ， 产 
生 了 一 幅 视觉 上 更 为 舒适 的 图 像 。 

图 6.2 ~ 图 6.12 都 摘自 珊瑚 礁 探索 视频 。 从 网 6. 2 和 图 6. 3 中 可 以 观察 到 ， 两 
种 编码 的 图 像 都 能 保持 细节 ; 但 经 过 仔细 检查 就 会 观察 到 ，MX 网 像 的 许多 细节 是 
来 自 于 8 x8 的 块 效 应 而 不 是 背景 中 的 细节 。 从 这 些 图 像 以 及 这 部 分 所 引用 的 图 像 
中 可 以 观察 到 ， 由 于 MX 中 编码 的 块 效应 ， 背 景区 域 中 的 纹理 丢失 了 。 图 6. 2 和 
图 6. 4 中 ， 前 景 对 象 的 块 效应 变 得 显著 而 清晰 。 
































图 6.2 单 通道 样 例 ， 蝴蝶 鱼 [ P3 | 
a) VP6 一 一 较 好 质量 的 图 像 b) Flash MX 一 一 对 象 篆 景 的 块 效应 





图 6.3 单 通道 样 例 ， 小 丑 鱼 [P3] 
a) VP6 一 一 较 好 的 质量 b) Flash MX 一 一 背景 细微 细节 的 丢失 





图 6.4 单 通道 样 例 ， 天 使 鱼 ， 块 效应 [P3] 
a) VP6 一 一 较 好 质量 的 图 片 b) Flash MX 一 一 背景 和 对 象 中 可 见 的 块 效应 





图 6. 5 是 关于 长 须 狮子 鱼 的 。 在 两 幅 图 像 中 ， 鱼 看 起 来 的 美丽 程度 上 有 一 个 明 

shia 从 右边 的 MX 中 观察 鱼 鳍 ， 可 以 发 现 许 多 因为 块 效应 导致 的 人 工 细节 。 

， 某 些 信息 似乎 跳跃 到 较 低 的 鱼 鳍 上 。 颜 色 明 显 饱 和 。 除 此 之 外 ,仔细 观察 丙 
We 左边 的 图 像 比 MX 图 像 更 加 真实 。 
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图 6.5 a) VP6 b) 


Wes 





16.6 低 对 比 度 背 景 [P3] 
a) VP6 一 一 清晰 而 分 明 的 图 片 b) Flash MX 一 一 质量 变 坏 





图 6.7 低 对比 度 背景 [P3] 
a) VP6 一 一 图 像 细节 保持 了 b) Flash MX 一 一 由 于 块 效应 背景 中 的 礁石 甚至 整个 丢失 了 


对 MX 而 言 ， 有 一 个 可 以 观察 到 的 缺点 就 是 不 能 适应 存在 低 和 高 对 比 度 的 网 








像 。 图 6. 6 和 图 6.7 就 是 这 样 的 例子 ; 低 对 比 度 的 海洋 背景 影响 了 前 景 对 象 (Aa 
M), K 6.7 中 背景 里 礁石 的 情况 甚至 更 差 。 它 几乎 隐没 到 块 里 面 了 。 
图 6.8 ~ 图 6. 12 是 双 通 道 编 码 的 例子 。 双 通道 编码 允许 编码 需 在 压缩 过 程 中 








图 6.8 双 通 道 编码 [P3] 
a) VP6 一 一 较 好 质量 的 图 像 b) Flash MX 





图 6.9 低 对 比 度 背 景 图像 〈 双 通道 编码 ) [P1] 
a) VP6 b) Flash MX 





图 6. 10” 低 对 比 度 背 景 〈( 双 通道 编码 ) [P3] 
a) VP6 一 一 较 好 的 质量 b) Flash MX 一 一 有 块 效应 的 图 像 





对 于 在 哪里 花费 比特 做 出 更 好 的 判决 ， 因 而 改善 了 编码 的 整体 质量 。 
双 通 道 编 码 的 性 能 比较 是 明显 的 。 图 6. 8 左边 的 图 像 呈 现 地 非常 好 ， 它 甚至 在 
150kbit/s 上 几乎 能 给 人 以 内 容 质量 很 高 的 印象 。 
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图 6.11 a) VP6 b) Flash MX 一 一 背景 里 的 鱼 几 乎 就 像 低 对 比 度 海洋 背景 中 的 瑕 症 [P3] 





图 6. 12 ”视觉 信息 的 绝对 损失 〈 双 通道 编码 ) [P3] 
a) VP6 一 一 保持 了 质量 b) Flash MX 图 像 


图 6.9 和 图 6. 10 是 旧 MX 在 低 对 比 度 背景 和 高 对 比 度 前 景 时 性 能 差距 的 例子 。 
与 右边 背景 斑驳 的 图 像 相 比 ， 两 个 例子 中 的 VP6 图 像 看 起 来 部 是 很 干净 的 。 

图 6. 11 是 另外 一 个 例子 ， 其 中 右边 MX 图 像 的 低 对 比 度 缘 景 瑕 辛 和 伪 明 锐 的 
地 方 几乎 损失 了 小 鱼 的 细节 。 在 岁 像 中 他 们 看 起 来 更 像 是 运动 的 瑕 站。 

最 后 ， 图 6. 12 总 结 了 研究 ， 给 出 了 MX 在 低 对 比 度 场 景 中 与 VP6 性 能 相 比 的 
困难 程度 。 总 的 来 说 ， 可 以 观察 到 ， 与 VP6 相 比 MX 性 能 欠 佳 ， 表现 为 使 颜色 饮 
和 、 不 必要 地 锐 化 图 像 且 有 斑驳 的 块 效应 。 




















6. 3 VP6 算法 基础 


与 市 场 上 多 数 的 开源 编译 码 系统 一 样 ，VP6 也 是 一 种 基于 运动 补偿 和 离散 余弦 
变换 的 编译 码 系统 [P53]。 图 6.13 给 出 了 VP6 编码 器 的 近似 框图 。 图 6.4 ~ 
图 6. 11 部 分 解释 了 框图 中 的 各 种 编码 工具 和 技术 。 有 关 编 译 码 系统 基础 的 高 级 概 
述 如 下 所 示 ( 男 见 表 6.1) [P5]。 








a) 











运动 补偿 
预测 环 路 
运动 估计 

















运动 补偿 


图 6.13 VP6 [P8] 

















a) 编码 器 框图 b) 解码 需 框 图 


YUV 4:2:0 图 像 格 式 ; 

基于 宏 块 的 编码 ( 宏 块 是 16 x 16 的 亮度 块 加 上 两 个 8 x8 的 色 度 块 ) ; 
1/4 像素 精度 的 运动 补偿 预测 ; 

8 x8 HY DCT; 

64 RIYA) at hae ; 

FRM RUE UAE ; 

帧 可 变量 化 等 级 ; 

解码 后 的 输出 缩放 ，; 

PA Pe a SS. 和 霍 夫 曼 和 二 进 制 算术 ( BoolCoder) 编码 ; 

TZ IEF AAS I hat ER o 
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36.1 VP6 和 H. 263 编码 标准 的 比较 [T6] 





算法 元 素 H. 263 基本 档次 VP6 H. 264 基本 档次 
图 像 类 型 I, P I, P I, P 
变换 大 小 8x8 8 x8 4x4 
变换 DCT 整数 DTC 整数 DCT 
内 部 预测 无 仅 直 流 模式 是 
运动 补偿 块 大 小 16x16, 8x8 16x16, 8x8 16x16, 16x8, 8x16, 8x8, 8x4, 
4x8, 4x4 
块 模式 总 数 4 10 7 种 帧 间 模 式 + (9 +4) 中 帧 内 模式 
运动 矢量 1/2 像素 1/4 像素 1/4 像素 
去 块 效应 滤波 无 是 是 
参考 帧 1 最 多 2 个 多 个 


(2008 SPIE) 


6.4 VP6 的 编码 档次 


对 于 很 大 的 图 像 格式 ，VP6 编译 码 系 统 中 所 用 的 某 些 技术 需要 相当 的 计算 资 
源 ， 低 端 或 更 高 端的 处 理 天 可 能 无 法 满足 。 所 以 为 了 在 编 诺 码 系统 中 分 配 资 源 和 工 
具 以 证 实 平 台 的 合理 性 ， 终 端 用 户 需 要 VP6 定义 的 两 种 不 同 的 档次 一 一 VP6 简单 
档次 和 高 级 档次 [P5 ] 。 

每 一 帧 的 首部 包含 一 个 标志 ，VP 档次 ， 它 指出 用 以 编码 该 帧 的 档次 。 在 两 种 档 
次 里 ，BoolCoder 用 于 在 第 一 数据 部 分 对 块 和 宏 块 的 编码 模式 以 及 运动 矢量 进行 编码 。 

在 简单 档次 编码 中 DCT 系数 在 第 二 数据 分 区 进行 编码 ， 通 过 设置 帧 首部 的 
MultiStream 标志 在 比特 流 中 加 以 指示 。 而 且 ， 为 了 降低 计算 复杂 度 ， 预 测 环 路 滤波 
价 和 双 三 次 预测 滤波 冀 都 被 禁用 。 

在 使 用 高 级 档次 时 ， 第 二 部 分 是 可 选项 ， 取 决 于 帧 首部 中 的 MultiStream 标志 。 
如 果 未 被 选中 ， 所 有 的 编码 数据 作为 单一 部 分 出 现 ， 使 用 BoolCoder 进行 编码 。 第 
二 部 分 可 能 使 用 霍 夫 曼 或 BoolCoder Wint H RITR EAN, HM IA KVE U A 
的 使 用 可 以 任意 激活 ， 取 决 于 帧 首部 的 一 个 标志 ， 而 且 预 测 滤波 带 类 型 可 以 在 双 线 
性 和 双 三 次 变 体 之 间 动 态 切 换 。 

在 两 个 档次 的 任何 一 个 中 ， 第 二 部 分 都 是 存在 的 ， 帧 首部 中 Use Huffman 标志 
指明 了 该 数据 的 编码 是 用 Huffman 还 是 BoolCoder MIAE [P5]. 

















6.5 WM 


VP6 只 定义 了 两 种 帧 类 型 ， 帧 内 编码 帧 和 帧 间 编 码 帧 | PS], Intra 或 工 由 1% 
其 他 任何 编译 码 系统 一 样 不 使 用 参考 帧 进行 重建 。 由 于 1 帧 是 不 需要 以 前 解码 帧 的 
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地 方 ， 所 以 它们 提供 了 一 种 快速 随机 访问 的 方法 。I 帧 没有 用 到 H. 264 那样 的 涉及 
计算 复杂 度 很 高 的 自 适 应 帧 内 预测 [S10] 。VP6 所 用 的 帧 内 编码 技术 在 6. 6 节 进 
行 解释 。 

帧 间 预 测 帧 或 P 帧 ， 关 于 序列 中 以 前 编码 的 参考 帧 进行 差分 编码 。 图 6. 14 描 
述 了 以 前 帧 的 预测 。 这 个 参考 帧 可 能 或 者 是 序列 中 紧邻 前 帧 的 重建 帧 ， 或 者 是 一 幅 
存储 的 前 帧 ， 叫 作 金 色 帧 [PS], ， 如 6. 5. 1 市 所 描述 。 














I-1 帧 P-1 帧 P 帧 Iii 


图 6.14 以 前 帧 的 预测 


6.5.1 黄金 帧 


ee FON CY PE De eM, a, BRU Re APR SY Tot, (AE 
可 在 任何 时 间 更 新 。 图 6. 15a 和 b Zr Hh ee eM PY Gy ce, WUT TS BY to as AD EE A 





1-1 yi P-k 帧 P-1 帧 Pri I 帧 


图 6. 15 ”黄金 帧 预测 ”黄金 帧 缓冲 右上 默认 存 有 最 近 解 码 的 1 帧 。 
黄金 帧 缓冲 右 被 更 新 [PS] (2006 On2 科技 公司 ) 
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b) 





ER 
I-1 帧 P-k 帧 P-1 帧 Phi 


P 15 ”黄金 帧 预测 ”黄金 帧 缓冲 器 默认 存 有 最 近 解 码 的 1 帧 。 
金 帧 缓冲 右 被 更 新 LPS | (2006 On2 科技 公司 ) (2) 


旨 明 要 不 要 更 新 黄金 帧 缓冲 名 。 为 了 更 新 黄金 帧 ， 当 前 帧 首先 要 解码 然后 整个 复制 


到 黄金 帧 缓冲 器 中 。 
VP6 没有 使 用 后 回 或 双 回 预测 。 故 不 存在 MPEG 或 H. 264 那样 的 B 帧 [P5]. 


6.6 BREN 


VP6 有 十 个 宏 块 信 令 模式 一 一 一 个 帧 内 模式 和 九 个 帧 间 模 式 [PS ] 。 
6.6.1 工 帧 的 宏 块 模式 ( 帧 内 模式 ) 


当 一 帧 是 I 帧 的 时 候 ， 只 使 用 帧 内 模式 ， 所 以 不 需要 信 令 模式 。 与 H. 264 不 
Fj, Æ CODE_INTRA 中 不 使 用 空间 预测 ( VP6 的 帧 内 模式 ) 。6 个 块 (4 个 亮度 块 
和 2 个 色 度 块 ) 的 每 一 个 在 从 每 个 样 值 (原始 图 像 一 一 8bit 的 PCM 像素 ) 减 去 固 
定 值 128 之 后 进行 DCT 编码 。 减 去 128 有 助 于 改善 DCT 的 精确 度 。 


6.6.2 PP 帧 的 宏 块 模式 ( 帧 间 模式 与 帧 内 模式 ) 


P 帧 使 用 运动 补偿 ， 故 宏 块 利用 预测 帧 进行 预测 。 被 预测 帧 可 能 是 以 前 的 帧 或 
者 黄金 帧 。 运 动 矢量 的 单位 规定 为 1/4 像素 (也 就 是 说 ， 对 亮度 是 1/4 样 值 精度 对 
色 度 是 1/8 样 值 精度 ) 。 

用 了 帧 的 帧 内 模式 实际 上 像 工 帧 一 样 。 
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还 有 其 他 9 种 定义 的 帧 间 模 式 。 这 些 模式 取决 于 运动 天 量 是 新 计算 的 还 是 使 用 来 
目 于 相 邻 安 块 其 中 之 一 的 。 用 于 预测 的 相 邻 宏 块 分 类 为 近邻 块 和 最 近邻 块 [P5 ] 。 


6.7 最 近邻 块 和 近邻 块 


在 茶 些 环境 中 ， 规定 一 个 宏 块 与 最 近邻 宏 块 之 一 具有 相同 的 运动 矢量 而 不 是 编 

码 一 个 新 的 运动 矢量 ,这样 做 是 相当 有 效 的 。 因 为 这 个 原因 ，VP6 定义 了 最 近邻 运 
动 撩 量 的 概念 和 近邻 运动 矢量 。 这 些 被 定义 为 遇 到 的 前 两 个 非 (0, 0) 运动 天 
量 ， 一 一 第 一 个 是 最 近邻 的 ， 第 二 个 是 近邻 的 。 相 邻 块 及 其 顺序 如 图 6. 16 所 示 。 
对 于 标记 为 最 近邻 或 近邻 的 相 邻 块 ， 它 们 应 该 用 与 当前 块 相 同 的 参考 帧 进行 编码 。 
如 有 果 不 存在 这 样 的 块 ， 那 么 就 是 没有 定义 最 近邻 和 近邻 运动 矢量 。 

x 一 当前 宏志 

1-12 一 一 在 此 顺序 中 的 相 邻 宏志 





























列 -2 -1 0 1 2 
图 6. 16 发现 近 邻 和 最 近邻 块 的 顺序 [P5] 
不 同 的 编码 模式 见 表 6. 2。 大 多 数 编 码 模式 是 不 解 自 明 的 。 
表 6.2 VP 的 宏 块 编码 模式 [P5] 




















编码 模式 预 测 帧 运动 矢量 
CODE_INTER_NO_MV 以 前 的 重建 帧 固定 的 (0, 0) 
CODE_INTRA 无 无 
CODE_INTER_PLUS_MV 以 前 的 重建 帧 新 计算 的 运动 矢量 
CODE_INTER_NEAREST_MV 以 前 的 重建 帧 与 最 近 块 相同 的 运动 矢量 
CODE_INTER_NEAR_MV 以 前 的 重建 帧 与 近邻 块 相 同 的 运动 矢量 
CODE_USING_GOLDEN 黄金 帧 固定 : (0, 0) 
CODE_GOLDEN_MV 黄金 帧 新 计算 的 运动 矢量 
CODE_INTER_FOURMV 以 前 的 重建 帧 四 个 亮度 块 的 每 一 个 有 相应 的 运动 矢量 
CODE_GOLD_NEAREST_MV 黄金 帧 与 最 近 块 相同 的 运动 矢量 


CODE_GOLD_NEAR_MV 黄金 帧 与 近邻 块 相同 的 运动 矢量 
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XP aN, MPRA aR AREA Aiea at, TESTS 
模式 CODE_INTER_FOURNV 中 ， 四 个 Y 块 的 每 一 个 将 被 独立 编码 ， 每 个 块 具有 一 
个 相关 的 编码 模式 ， 该 模式 来 自 于 一 个 缩减 的 集合 ， 其 中 排除 了 帧 内 模式 或 者 任何 
一 种 黄金 帧 模式 。 两 个 色 度 块 的 运动 矢量 通过 对 四 个 Y 运动 矢量 取 平 均 计 算得 到 
(WHA) [P5]; 





6.8 运动 矢量 


VP6 具有 包括 运动 预测 的 9 种 宏 块 模式 。 运 动 拓 量 或 者 是 明确 计算 出 来 的 或 者 
是 使 用 一 个 相 邻 块 的 运动 矢量 。 三 种 模式 包括 新 运动 矢量 的 明确 计算 [P5 ] 。 

。 CODE_INTER_PLUS_MV: 新 运动 矢量 参考 以 前 的 重建 帧 进行 编码 ; 

e CODE_GOLDEN_MV: 新 运动 矢量 参考 重建 的 黄金 帧 进行 编码 ; 

。 CODE_INTER_FOURMV: 对 宏 块 级 上 可 得 的 块 的 子 集 里 每 个 亮度 块 可 能 规 
定 一 种 不 同 的 模式 〈 见 表 6. 1) 。 每 个 以 CODE_INTER_PLUS_MV 模式 编码 的 块 会 
有 自己 明确 编码 的 运动 矢量 。 

如 果 最 近 安 块 存在 而 且 或 者 在 当前 宏 块 的 左 侧 (邻居 1) 或 者 在 当前 宏 块 的 上 
Ti (邻居 2) ( 见 图 6.13) ， 那 么 新 运动 矢量 参考 最 近 宏 块 的 运动 矢量 进行 差分 编 
码 。 如 果 不 存在 这 样 的 块 ， 那 么 新 运动 矢量 进行 绝对 编码 。 

隐 含 运动 天 量 可 能 是 没有 运动 矢量 即 (0，0) ， 或 者 来 自 最 近 宏 块 ， 或 者 来 上 自 
近邻 安 块 这 三 种 情况 之 一 。 这 些 模式 如 下 : 

e CODE_INTER_NO_MV: 使 用 应 用 于 以 前 重建 帧 的 运动 矢量 (0, 0); 

e CODE_INTER_NEAREST_MV: 使 用 应 用 于 以 前 重建 帧 ， 同 时 来 自 以 前 编码 
的 最 近 宏 块 的 运动 矢量 ，; 

e CODE_INTER_NEAR_MV: 使 用 应 用 于 以 前 重建 帧 ， 同 时 来 自 以 前 编码 的 
近邻 安 块 的 运动 矢量 ; 

e CODE_USING_GOLDEN, 使 用 应 用 于 重建 黄金 帧 的 运动 矢量 (0, 0); 

e CODE_GOLD_NEAREST_MV: 使 用 应 用 于 重建 的 黄金 帧 ,来 自 以 前 编码 的 
最 近邻 安 块 的 运动 矢量 ; 

e CODE_GOLD_NEAR_MV; 用 应 用 于 重建 的 黄金 帧 ,来 自 以 前 编码 的 近邻 宏 
块 的 运动 矢量 。 

最 近 和 近邻 宏 块 在 6. 7 部 分 解释 。 


6.8.1 编码 


运动 天 量 有 一 个 xx 分 量 和 y 分 量 。 每 个 分 量 可 变 分 类 为 或 者 是 短 天 量 或 者 是 长 
矢量 。 所 以 ,一 个 运动 矢量 可 能 将 x 分 量 编码 为 短 天 量 ， 将 y 分 量 编码 为 长 矢量 或 
者 任何 这 样 的 组 合 。 长 度 是 单个 分 量 的 长 度 (x 分 量 或 者 y 分量); 它 并 非 整个 的 







































































矢量 幅 值 。 

e 短 矢 量 定义 为 一 个 长 度 低 于 8 个 1/4 像素 单位 的 矢量 ; 

。 长 矢量 定义 为 一 个 长 度 大 于 或 等 于 8 且 低 于 或 等 于 127 个 1/4 像素 单位 的 
矢量 。 
6. 8.2 ”预测 环 路 滤波 

为 了 创建 一 个 非 零 运 动 矢量 的 预测 块 ，VP6 有 一 个 预测 环 路 滤波 器 (图 6. 13). 


由 于 它 没 有 传统 的 环 路 滤波 ， 这 个 滤波 也 帮助 降 低 块 效应 。 预 测 环 路 滤波 融 的 双重 
用 法 在 6. 11 THR, 


6.9 ”分 数 像 素 运 动 补 偿 的 滤波 


VP6 文 持 使 用 分 数 像 系 运 动 补 偿 ， 对 于 亮度 有 最 高 1/4 样 值 的 精度 ， 对 于 色 度 
有 1/8 样 值 的 精度 。 在 非 整数 的 像素 位 置 上 使 用 内 插 来 确定 样 值 。 

支持 的 两 类 内 插 滤波 为 : 

© 双 线 性 滤波 : 用 2 抽 头 滤波 种 ( 见 6.9.1 市 ); 

© 双 三 次 滤波 : 用 4 抽 头 滤波 种 (IL 6.9.2 市 )。 

在 “从 单 档次 ”中 不 允许 双 三 次 滤波 ， 所 以 在 所 有 需要 分 数 像 系 预测 表 的 情 
况 下 使 用 双 线 性 滤波 。 


6.9.1 双 线 性 滤波 
表 6. 3 所 描述 1 维 滤波 器 抽 头 用 于 亮度 分 量 1/4 样 值 精度 的 双 线 性 滤波 。 
表 6.3 用 于 1/4 样 值 精度 的 亮度 滤波 的 双 线 性 (1 维 ) 滤波 器 抽 头 

















BilinearLumaFilters [4] [2] = 


| 

| 上 ，// 全 样 值 排列 的 
196, 32}, //1/4 

| | JAZ 

| |, //3/4 

| 


表 6.4 所 描述 的 1 维 滤波 船 抽 头 用 于 色 度 分 量 1/8 样 值 精度 的 双 线 性 滤波 。 

在 运动 天 量具 有 x 和 y 方 向 上 的 分 数 分 量 的 情况 下 ， 通 过 在 x〈 水 平 ) 方向 上 
施加 滤波 来 计算 一 个 中 间 结 有 果 。 这 个 中 间 绪 有 果 用 作为 一 个 通道 的 输入 ,该 通道 在 y 
(ŒA) 方向 上 进行 小 波 以 生成 最 终 的 2 维 滤波 输出 。 
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表 6.4 用 于 1/8 样 值 精度 色 度 滤波 的 双 线 性 (1 维 ) 滤波 器 抽 头 [P5] 


BilinearChromaFilters [8] [2] = 


| 

1128, 0}, // 全 样 值 排列 的 
(112, 16}, // 1/8 

{96, 32}, // 1⁄4 

{80, 48}, //3/8 

164, 64}, //1/2 

{48, 80}, // 5/8 

132, 96}, // 3/4 

116, 112} //7/8 

| 


6.9.2 NIRE 


双 三 次 滤波 器 的 抽 头 需要 计算 16 个 从 -0.25 到 -1.00 的 wa 值 。 对 于 每 个 a 
值 ， 有 8 组 系数 对 应 于 从 0 到 7/8 的 178 BRM. ZEAE VP6. 2 的 比特 
流 中 。 表 6.5 描述 了 滤波 需 抽 头 值 。 表 中 第 17 项 用 于 VP6. 1 的 比特 流 [PS ]。 


表 6.5 用 于 1/8 像素 内 插 的 双 三 次 (4 抽 头 ) 滤波 器 抽 头 





BicubicFilterSet [17] [8] [4] = 
p , 128, 0, 0}, // 全 样 值 排列 ，A”= -0.25 
, 122, 9, 0}, // 1/8 
-4, 109, 24, -1!, // 1⁄4 
5, 91, 45, -3!, //3/8 
pi 68, 68, -4}, // 1/2 
， os 91, -5}, //5/8 
, 109, -4}, // 3/4 
0, 9, 122, -3}, //7/8 


4, 124, 9, -1}, 
5, 110, 25, -2}, 
-6, 91, 46, -3}, 
-5, 69, 69, -5}, 
i 46, 91, -6}, 
2.25, 110, =5}, 

„0, 124, <4), 


| 
| 
ce 
| 
i= 
|- 
| 
I, 
{{0, 128, 0, 0}, // A* = -0.30 
= 
Le 
| 
| 
| 
i= 
= 
I, 
| 


{0, 128, 0, 0}, //A* = -0,35 








4, 123, 10, -1 
6, 110, 26, -2}, 
7:93,47, <A) 

-6, 70, 70, -6} 
A, AG OO. 229) 
2, 26, 110, -6 
1, 10, 123, -4 


{0, 128, 0, 0}, // A* = -0.40 
5, 124, 10, -1 
7, 110, 27, -2}, 
7, 91, 48, -4} 

-6, 70, 70, -6} 
4, 48, 92, -8} 
2, 27, 110, -7 

, 10, 124, -5 


10, 128, 0, 0}, // A* = -0.45 
6, 124, 11, =i) 
8, 111, 28, -3| 
8, 92, 49, -5}, 

=T; Te Ti =7}, 
5 -8| 
3 
1 


? 
? 


, 49, 92, ; 


, 28, 111, -8 
, 11, 124, -6 


a 
| 


Ed 


10, 128, 0, 0}, 77 A* = -0.55 
„i2; <1), 

-10, 111, 30, -3}, 

-10, 93, 51, -6}, 

-9, 73, B, -9}, 


续 


ab 





-6, 51, 93, -10}, 
-3, 30, 111, -10}, 


zi 19. 194, 7i 

10, 128, 0, 0}, // A* = -0.60 
ni. 13. =i. 

ii, 12, 3i, 24). 

-11, 94, 52, -7}, 

10, 74, 74, -10}, 

Pe 94, -11}, 

k 5 112, =11}, 

13, 123, =7}, 

10 — 0,0}, // A* = -0.65 
(04.13, <i), 


210% WD. 62 24. 
12, 94, 53, -7}, 
=10; 74, 74, 10}, 


7, 53, 94, -12}, 
4, 32, 112, -12}, 


10, 128, 0, 0}, // A* = -0.70 
9, A l; =l; 
三 同人 33; 24), 
13, 95, 54, -8}, 
= 1573 
-8, 54, 95, -13}, 
24. 33. 112, 13), 
p 14 104, 9), 


| 

| 

(= 

| 

| 

| - 

| 

| 

| =- 

| 

| 

pe 

| 

| 

| - 

| 

| - 

| 

i= 

| - 

boat. 16,104, =8%, 
| 

| 

| - 

| 

{- 

| 

| 

| 

| =- 

7 

110, 128, 0, 0}, // A* = -0.75 
tao. 103. 1s, = 
(=14 113.94, =5%, 
fa14,.05, 55, <8), 
42. 96, 765. =<12), 
| -8, 55, 95, -14}, 
i 34, 12, = 13}; 
fo, 155, 123, <9), 
| 


Ed 


VP6 4 


HIM 2 


Fn EY Fa E 
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10 ee 0,0}, “7 A* 


| 
| -10, 124, 15, -1}, 
a 113, 34, -5}, 
| -15, 96, 56, -9}, 
293. 77; 77, = 13), 
| -9, 56, 96, -15}, 
= 34, 113, -14}, 
fad. 15, 124, =10}, 
F 
i 128, 0, 0}, // A* 
123, 16, -1} 
-15, 113, 35, <5] 
-16, 98, 56, -10| 
-14, 78, 78, -14}, 
-10, 56, 98, -16| 
=5, 35, 113, =15] 
, 16, 123, -10| 


| 

| — 

| 

| 

| 

| 

| 

= 

加 

110, 128. 0, 0l, 77 A 
| -11, 124, 17, -2} 
ae 113, 36, -5} 
| =17, 98, 57, -10| 
{-14, 78, 78, -14}, 
Po 10,57; 98 t7] 
| -5, 36, 113, -16} 
| 一 124 | 
| 
| 
| 
| 
| - 
= 
oo 
| 
| - 
| 
| 
| 
| 


2; 7 


{0, 128, 0, 0}, // A* 


=. 105.17, 2 
-17, 114, 37, -6| 
18, 99, 58, —11} 
15, 79, 79, -15}, 
| 
| 
| 


, 58, 99, -18}, 
-6, 37, 114, -17}, 
2, 17, 125, -12}, 


{0, 128, 0, 0}, // A* 
-12, 124, 18, -2}, 
-18, 114, 38, -6}, 


= —0. 80 


= -0. 85 


= -0.90 


= -0.95 


= -1.00 


续 


ab 
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-19, 99, 59，-111， 
-16, 80, 80, -16}, 
11, 59, 99, -19}, 
, 114, -18}, 
18, 124, -12}, 


| 
| 
‘ao 
i= 
{- 
E 
J 128, 0, 0}, // MF VP6. 1 系数 比特 流 
= 
= 
| 
| 
| 
| 
| 


4, 118, 16, <2), 
7, 106, 34, -5}, 
= 90, 53, <7; 
-8, 72; 72, -| 
= 63. | 
-5, 34, 106, -7}, 
-2, 16, 118, -4| 


6.10 ”对 于 无 约束 运动 矢量 的 支持 


VP6 支持 无 约束 运动 矢量 (UMV, Unrestricted Motion Vector) 的 概念 。 这 意味 
二 个 运动 矢量 而 言 ， 指 向 一 个 超越 图 像 边界 的 预测 块 是 有 效 的 。 为 了 文 持 这 

寺 征 ， 也 为 了 重复 编译 码 系统 的 伸缩 特征 ， 重 建 缓 冲 需 在 所 有 的 方向 上 用 48 个 
Peer THe, WA 6.17 所 示 。 

















无 限制 运动 矢量 边界 


图 6. 17 对 于 超越 图 像 边界 的 运动 矢量 的 支持 


复制 边缘 值 48 次 缓冲 絮 得 以 扩展 。 首 先 在 x (水 平 ) 方向 然后 在 y (ŒE 
直 ) ee 
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6.11 预测 环 路 滤波 


VP6 没有 传统 上 的 重建 绥 冲 环 路 滤波 融 ; 但 它 文 持 预测 帧 〈 以 前 的 重建 帧 或 
合适 的 黄金 帧 ) 里 8 x8 相 邻 块 边界 上 的 像素 滤波 ， 作 为 对 于 非 零 运动 矢量 创 建 一 
个 预测 块 的 部 分 过 程 。 就 传统 环 路 滤波 俘 而 言 ， 这 有 助 于 减少 块 效应 ， 但 涯 肖 在 
重建 缓冲 需 之 内 是 不 能 被 执行 的 。 更 确切 地 说 ， 输 出 是 复制 到 一 个 独立 的 临时 组 
冲 货 中 的 。 对 于 分 数 像素 运动 补偿 ， 需 要 任何 滤波 之 前 都 要 完成 这 一 步 〈 见 
a T) [Pra 

ERARE, HAERES, FEA, WRA Use 
LoopFilter 标识 设置 为 1， 那 么 就 是 启用 的 。 

如 果 由 运动 矢量 定义 的 预测 块 监 越 了 预测 帧 内 一 个 8 x 8 的 块 边界 ， 那 么 就 将 去 
块 效应 和 /或 去 振 铃 效应 滤波 带 作 用 于 邻近 边界 的 像素 上 以 降低 间断 性 (ILEI 6. 18)。 


运动 估计 的 预测 块 


a 


图 6.18 8 x8 块 边界 的 预测 环 路 滤波 [P5] 


。 LAR RUM UE aes 具有 去 块 效应 和 去 振 铃 特性 ; 

。 去 块 效应 滤波 般 : 只 有 去 块 效应 滤波 副 。 去 块 效应 滤波 各 包括 一 个 4- 抽 头 
滤波 各 (1, -3, 3, -1) 以 及 一 个 与 量化 副 有 关 的 边界 子 数 ,该 函数 在 水 平和 
垂直 块 边界 处 发 生 作 用 。 预 测 环 路 滤波 需 的 系数 如 表 6. 6 所 描述 [P5]. 
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表 6.6 预测 环 路 滤波 器 的 限定 值 [P5] 


PredictionLoopFilterLimitValues [64] = 
| 

30, 25, 20, 20, 15, 15, 14, 14, 
13, 13, 12; 12, 11, 11, 10, 10, 
7, 


pe N N AÀA DW so 
= » N A a 9 
ka N N AÀA Dw 
Re N N W wm N 
pe N N Q a N 
pe N N WOW a N 


9 
6 5 
4, 3, 
2 5. 
2 2 
1 1 
| 


6.12 DCT, 扫描 顺序 和 系数 牌 集合 


为 了 降低 解码 需 的 复杂 度 ，VP6 使 用 了 一 个 略微 修改 过 的 非 标准 定点 整数 逆 离 
散 余弦 变换 (DCT); 14 比特 精度 的 IDCT 用 于 把 系数 转换 回 或 者 差分 像素 值 。 该 
变换 基于 Vetterli 和 Ligtenberg 的 论文 “A Discrete Fourier- Cosine Transform Chip” 
IEEE Journal on Selected Areas of Communications, vol.4, pp.49-61, Jan. 1986 
[B]。 该 论文 的 作者 们 提出 了 一 种 DCT 技术 ， 甚 重点 是 可 变 复 杂 度 算法 (VCA, 
Variable Complexity Algorithm) ， 它 可 以 随 厦 所 用 的 目标 量化 也 数 而 调整 前 癌 DCT 的 
复杂 度 。 当 量化 比较 粗糙 的 时 候 ， 这 一 技术 能 提供 较 快 的 性 能 。 生 成 零 或 小 幅 值 系 
数 所 需 的 计算 可 以 省 略 而 不 会 导致 严重 后 采 ， 如 宁 这 些 系数 的 位 置 已 知 的 话 。 对 于 
逆 DCT 的 情况 ， 这 使 得 基于 零 系 数位 置 的 变换 及 量化 数据 块 的 直接 分 类 成 为 可 能 。 
零 系 数 的 分 组 也 使 得 我 们 具有 一 种 复杂 度 降 低 的 IDCT 算法 。 

这 里 ， 前 向 DCT 需要 能 够 准确 预测 量化 DCT 输出 的 稀 玖 性 ， 同 时 具有 最 小 的 
复 林 度 开销 。 这 必须 在 变换 和 量化 实施 之 前 完成 。 因 此 ， 该 算法 考虑 了 量化 级 别 和 
输入 块 特性 [13]。 

能 把 非 等 系数 分 组 并 放 在 组 的 前 端 ， 在 这 种 尝试 中 ， 目 定义 DCT 系数 的 扫描 
顺序 是 有 可 能 的 (6. 12. 1.2)。 


6.12.1 扫描 顺序 
扫描 排序 是 提供 自 定义 扫描 顺序 的 过 程 。 如 果 我 们 对 8 x8 变换 块 的 64 个 系数 
以 光栅 顺序 进行 编号 ， 那么 0 号 和 63 号 系数 分 别 就 是 直流 和 按 频率 增加 顺序 的 交 


流 系数 ， 扫 描 重 排序 由 给 出 新 排序 的 64 个 元 素 阵列 规定 。 系 数 以 修改 的 顺序 出 现 
在 比特 流 中 。 解 码 器 在 逆 量 化 和 IDCT 之 前 再 将 他 们 安排 回 到 光栅 顺序 [P5 ] 。 
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1. 默认 扫描 顺序 
默认 扫描 顺序 是 标准 的 Z 形 顺 序 ， 如 图 6. 19 所 示 。 


2. 自 定 义 扫 描 顺 序 


VP6 文 持 每 一 帧 目 定 义 的 扫描 顺序 。 编 码 融 指明 使 用 了 目 定 义 的 扫 摘 顺序 。 
对 于 帧 内 编码 帧 扫描 顺序 首先 设置 为 适当 的 默认 顺序 。 然 后 ,该 默认 顺序 利用 
比特 流 中 编码 的 A 信息 进行 更 新 。 对 于 帧 间 编 码 帧 ，A 用 于 前 帧 所 用 的 自 定义 顺 


3 6 7 

0 4 5 
9 0 3 

6 9 20 1 
4 6 8 9 
4 A 4 AS 6 7 


默认 的 Z 形 扫 摘 顺序 [P5] 





序 中 而 不 是 用 于 上 默认 的 扫描 顺序 之 一 。 


为 了 规定 一 个 日 定义 扫 摘 顺序 ， 每 个 交流 系数 (在 Z 形 顺序 中 ) 都 指定 给 一 
个 系数 带 ， 如 表 6. 7 提 到 的 那样 。 该 表 描 述 了 16 SABC, 调整 的 扫描 顺序 中 63 
个 交流 位 置 分 裂 到 其 中 。 然 后 ， 在 每 个 带 中 的 系数 基于 最 初 的 Z 形 扫描 顺序 被 升 
序 排列 。 解 码 器 同样 保留 着 表 6.7， 用 于 对 标准 Z 形 顺 序 中 每 个 


更 新 信息 进行 解码 [PS]. 


CoeffBandUpdateFlagProbs [64 | 


| 


NA, 
164, 
124, 


132, 
162, 
125, 
,123, 
` 180, 
, 206, 
, 255, 
, 255, 


132, 
136, 
132, 
143, 
179, 
203, 
253, 
255, 


159, 
110, 
136, 
126, 
164, 
217, 
255, 
255, 


153, 
103, 
114, 
153, 
203, 
229, 
255, 
255, 


151, 
114, 
110, 
183, 
218, 
241, 
255, 
255, 


表 6.7 系数 带 更 新 概率 [PS] 


, 170, 
，118 ， 
，135 ， 
, 161, 
，217 ， 
，243 ， 
，255 ， 
，255 


流 系 数 的 系数 带 
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6.12.2 DCT 编码 与 系数 牌 集合 


DCT 编码 有 三 个 级 别 一 一 直流 系数 的 预测 编码 ， 交 流 系数 的 编码 ， 以 及 直流 
和 交流 系数 的 零 游 程 编码 [P5 ] 。 

1. 直流 预测 

在 解码 器 ， 一 个 块 的 直流 系数 通过 将 预测 值 和 一 个 预测 误差 加 起 来 进行 重建 。 
预测 误差 被 编码 到 比特 流 中 然后 解码 。 预 测 值 从 当前 帧 已 经 解码 的 相 邻 块 的 直流 系 
数值 中 计算 出 来 。 

对 于 一 个 特定 的 块 ， 至 多 有 两 个 特定 的 直接 相 邻 块 的 直流 值 贡 献 给 预测 。 如 
图 6. 20 所 示 ， 涉 及 的 两 个 块 是 当前 块 紧邻 的 左 侧 和 上 方 的 块 [P5 ]。 











来 自用 于 预测 的 
相 邻 块 的 直流 值 





X 一 当前 块 
A 一 上 方 的 相 邻 块 
L 一 左 侧 相 邻 块 


图 6. 20 ”用 相 邻 块 的 直流 预测 


相 邻 块 的 直流 值 只 对 一 个 特定 块 的 直流 值 预测 有 贡献 ， 如 果 下 列 所 有 的 条 件 都 
满足 的 话 

o 相 邻 块 存 在 ; 在 帧 的 坐 边 沿 没有 块 的 左 邻 块 且 在 帧 的 上 边沿 没有 块 的 上 
SBR; 

e 相 邻 块 从 与 被 预测 块 (重建 的 上 一 帧 或 黄金 帧 ) 相同 的 参考 帧 中 预测 得 到 , 

o 帧 间 编 码 块 只 能 由 相 邻 的 帧 间 编 码 块 预测 ， 且 帧 内 编码 块 只 能 由 相 邻 的 帧 
内 编码 块 预测 [P5] 。 

表 6. 8 描述 了 预测 值 是 如 何在 多 个 相 邻 块 存在 ， 还 是 一 个 相 邻 块 存 在 ， 还 是 没 
有 相 邻 块 存在 时 计算 出 来 的 。 

表 6.8 基于 相 邻 块 的 直流 预测 [P5] 











Æ (L) 侧 有 上 (A) FA 预 测 器 
a a 具有 相同 预测 帧 的 上 一 个 解码 块 的 直流 值 
否 fe j 
是 T L 
是 是 (L+A+sign (L+A))/2 
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2. 系数 牌 集合 
表 6.9 描述 的 下 列 12 个 牌 的 集合 用 来 表示 量化 的 DCT 系数 。 


表 6.9 DCT 标记 集合 与 额外 比特 [PS] 























序 额外 比特 5 
y RA 最 小 值 最 大 值 na 额外 比特 的 算术 编码 
号 (包括 符号 ) 
0 ZERO_TOKEN 0 0 x 
1 ONE_TOKEN 1 1 1 B (128) 
2 TWO_TOKEN 2 5 1 B (128) 
3 THREE_TOKEN 3 3 1 B (128) 
4 FOUR_TOKEN 4 4 1 B (128) 
5 DCT_VAL_CATEGORY1 5 6 2 B (159), B (128) 
6 DCT_VAL_CATEGORY2 7 10 3 B (165), B (145), B (128) 
7 DCT_VAL_CATEGORY3 11 18 4 B (173), B (148), B (140), B (128) 
B (176), B (155), B (140), B (135), 
8 DCT_VAL_CATEGORY4 19 34 5 
B (128) 
B (180), B (157), B (141), B (134), 
9  DCT_VAL_CATEGORYS 35 66 6 
B (130), B (128) 
B (254), B (254), B (243), B (230), 
B (196), B (157), B (153), 
10 DCT_VAL_CATEGORY6 67 2114 12 
B (140), B (133), B (129), 
B (128) 
11 DCT_EOB_TOKEN N/A N/A eo 


K 6.9 中 的 最 小 值 表 示 可 用 那个 标志 编码 的 最 小 数值 。 额 外 比特 反映 了 那个 标 
志 值 的 范围 。 幅 值 的 最 高 有 效 位 首先 发 送 而 最 后 的 额外 比特 总 是 符号 位 。 在 算术 编 
人 码 中 ， 每 个 额外 比特 都 以 差分 概率 (原文 : differing probabilities 译 者 注 ) 进行 
编码 。 在 霍 夫 曼 编码 中 ， 这 些 比特 直接 进入 比特 流 中 。 

概率 值 和 上 下 文 信息 用 于 将 DCT 系数 编码 到 这 些 标 志 中 去 。 这 些 概 率 值 存储 
在 表格 中 ， 表 格 由 解码 器 保存 并 且 按 帧 更 新 。 

CERT a, Bae SUN 6. 21 所 示 的 直流 和 交流 标志 的 二 进 制 码 树 用 于 解 
码 DCT 系数 牌 。 码 流 提 供 了 码 树 每 个 结 点 上 取 0 的 树枝 的 概率 集 。 这 样 ， 比 
特 流 用 二 进 制 码 树 每 个 结 点 的 零 树 校 概率 来 编码 ， 解 码 瘟 用 它 来 解码 DCT 标 
志 。 使 用 一 个 解码 需 能 用 的 算法 ， 同 样 的 概率 集 也 能 被 转换 为 一 组 霍 夫 受 概 率 
US] 

3. 直流 解码 

对 直流 而 言 ， 解 码 各 保有 两 个 概率 集 (长 度 为 11，11 个 标志 的 每 一 个 都 有 一 
个 值 ) ， 一 个 用 于 了 平面 一 个 用 于 UV 平面 。 这 些 概率 集 按 帧 来 更 新 ; 比特 流 提 供 
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ZERO_CONTEXT_NODE 


EOB_CONTEXT_NODE ONE_CONTEXT_NODE 


OC oo 


TWO_CONTEXT_NODE HIGH_LOW_CONTEXT_NODE 


THREE CONTEXT NODE | [cAT 1 CONTEXT NODE| | CAT_3_4_CONTEXT_NODE 


CAT_3_CONTEXT_NODE CAT_5_CONTEXT_NODE 


图 6.21 交流 和 直流 上 下 文 的 二 进 制 码 树 
解码 需 更 新 这 些 概 率 的 信息 [PS]. 
直流 系数 的 算术 和 霍 夫 曼 解码 
算术 编码 的 直流 值 用 更 新 的 概率 进行 解码 。 解 码 直 流 值 要 利用 上 下 文 信 息 ， 这 
些 信息 指出 当前 块 的 紧邻 左 侧 和 紧邻 上 方 的 块 的 直流 值 是 0 还 是 非 0 ( 见 表 6. 10) 。 
表 6.10 直流 结 点 上 下 文 [PS] 











索 4 情 况 
0 左 侧 块 的 预测 直流 系数 是 0 而 且 上 方块 的 预测 直流 系数 是 0 
1 或 者 左 侧 块 预测 直流 系数 非 零 或 者 上 方块 预测 直流 系数 非 零 ， 但 不 都 是 
2 左 侧 块 预测 的 和 上 方块 预测 的 直流 值 


如 果 已 经 使 用 了 下流 标志 的 和 瞧 夫 曼 编 码 ， 那 么 解码 各 就 用 具备 的 算法 直接 从 二 
进 制 编码 码 树 来 生成 霍 夫 曼 解码 树 。 然 后 ， 这 些 概率 值 被 用 于 解码 和 截 夫 曼 编 码 的 直 
流 值 。 
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4. 交流 解码 

为 了 解码 交流 系数 ， 解 码 需 保持 着 一 个 四 维 的 概率 集 。 对 于 了 或 UV 平面 ， 每 
一 个 都 保持 着 系 数 牌 的 11 个 概率 的 集合 和 系数 的 六 个 市 〈 原 文 : band 一 一 详 者 
TE), ， 如 表 6. 11 所 提 到 的 那样 。 对 于 表 6. 12 所 描述 的 上 下 文 情况 ， 概 率 集 对 于 每 
一 个 都 是 不 同 的 。 比 特 流 提供 解码 硕 更 新 这 些 概率 的 信息 [P5 ] 。 

表 6.11 交流 系数 范围 [P5] 
索 Sl 情 况 

系数 1 
系数 2 ~4 
系数 5 ~ 10 
系数 11 ~21 
系数 22 ~36 
系数 37 ~63 














L A WO N 一 OO 


表 6.12 前 面 解码 的 交流 系数 上 下 文 [P5] 








索 4 te 况 
0 当前 块 前 面 解码 的 系数 〈 在 当前 的 扫描 顺序 中 ) 是 0 
1 当前 块 前 面 解码 的 系数 〈 在 当前 的 扫 摘 顺序 中 ) 是 1 
2 当前 块 前 面 解码 的 系数 〈 在 当前 的 扫描 顺序 中 ) 大 于 1 





5. 交流 系数 的 算术 和 霍 夫 曼 解 码 
在 解码 瘟 ， 算 术 编 码 的 交流 系数 值 用 来 日 比特 流 中 的 更 新 的 概率 进行 解码 。 所 
有 的 四 组 上 下 文 信息 一 一 Y 或 UV Fi, 系数 所 属 的 系数 这， 块 前 面 系数 是 0，1 
还 是 >1， 以 及 相应 的 标志 一 一 都 需要 用 来 解码 交流 值 。 
解码 霍 夫 曼 编码 的 交流 系数 需要 使 用 24 个 独立 的 霍 夫 曼 码 树 ， 这 些 码 树 存 放 在 
一 个 三 维 数组 中 。 有 一 个 不 同 的 码 树 ， 它 取决 于 系数 属于 哪个 平面 (了 还 是 UV), 
块 前 面 的 系数 是 0，1 还 是 >1， 以 及 系数 所 落 入 的 系数 带 ， 见 表 6. 13 [P5], 
表 6.13 霍 夫 曼 编 码 交 流 系 数 范围 
索 5l 情 况 
0 系数 1 
1 系数 2 ~4 
2 系数 5~10 
3 系数 11 ~63 











6. 解码 零 游程 
为 了 解码 零 游 程 解 码 咒 必须 保有 一 个 二 维 概率 集 。 零 游程 概率 的 第 一 维 由 零 系 
数 起 始 的 范围 来 编 入 索引 ， 见 表 6. 14 。 概 率 表 的 第 二 维 的 索引 取决 于 表 6.15 所 描 
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述 的 游程 值 [PS ] 。 
%6.14 零 游程 系数 范围 





索 5| 情 M 
0 系数 1 ~5 
1 系数 6 ~63 


表 6.15 零 游程 结 点 索引 [P5] 

















Ro Gl 游 程 
0 游程 概率 >4 
1 游程 概率 >2 
2 游程 概率 > 1 
3 游程 概率 >3 
4 游程 概率 >8 
5 游程 概率 > 6 
6 游程 概率 > 5 
7 游程 概率 >7 
8 比特 概率 (游程 一 9) 和 1 
9 比特 概率 ( (游程 一 9) >>1) 和 1 
10 比特 概率 ( (游程 一 9) >>2) 和 1 
11 比特 概率 ( (游程 一 9) >>3) 和 1 
12 比特 概率 ( (游程 一 9) >>4) 和 1 
13 比特 概率 ( (游程 一 9) >>5) 和 1 
6.13 ”量化 


视频 帧 的 每 一 个 运动 预测 的 8 x8 块 都 由 编码 器 进行 DCT 变换 到 一 个 64 个 系 
数 的 集合 。 然 后 ， 这 些 64 个 系数 通过 两 个 独立 的 均匀 标量 量化 器 进行 量化 : 一 个 
用 于 直流 系数 ， 另 一 个 用 于 63 个 交流 系数 。 

逆向 执行 均匀 标量 量化 需 需 要 64 个 系数 的 每 一 个 乘 以 整数 。 直 流量 化 值 (被 
RFO 通过 检索 直流 量化 表 ( 见 表 6. 16) 来 确定 。 同 样 地 ， 交 流量 化 值 通过 检索 
交流 量化 表 来 确定 ( 表 6. 16) [P5]. 


表 6.16 直流 和 交流 量化 值 [P5] 














DC QuantizationTable [64] = 

| 

188, 188, 188, 188, 180, 172, 172, 172, 
172, 172, 168, 164, 164, 160, 160, 160, 
160, 140, 140, 140, 140, 132, 132, 132, 
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( 续 ) 
132, 128, 128, 128, 108, 108, 104, 104, 
100, 100, 96, 96, 92, 92, 76, 76, 
76, 76, 72, 72, 68, 64, 64, 64, 
64, 64, 60, 44, 44, 44, 40, 40, 
36, 32, 28, 20, 12, 12, 8, 8 
| 
AC QuantizationTable [64] = 
| 
376, 368, 360, 352, 344, 328, 312, 296, 
280, 264, 248, 232, 216, 212, 208, 204, 
200, 196, 192, 188, 184, 180, 176, 172, 
168, 160, 156, 148, 144, 140, 136, 132, 
128, 124, 120, 116, 112, 108, 104, 100, 
96, 92, 88, 84, 80, 76, 72, 68, 
64, 60, 56, 52, 48, 44, 40, 36, 
32, 28, 24, 20, 16, 12, 8, 4 
| 


6.14 AmB 


在 VP6 F, A PY AH AS F FY I hd ES EY DCT 系数 标志 进行 编码 一 一 霍 夫 曼 编 
hs Fl BoolCoder [P5], 

KS ale — PPE AIT RCRA A, WR He Pe eK BAA 
的 压缩 性 能 。 一 般 来 计 ， 它 在 中 低级 别 的 处 理 带 上 用 于 很 高 数据 率 的 情况 ， 因 为 它 
HE BoolCoder 能 更 有 效 地 人 处理 大 量 的 标志 。 

BoolCoder 是 一 个 简化 的 二 进 制 算术 编码 器 ， 人 允许 对 标志 以 分 数 比特 来 编码 。 
就 压缩 效率 而 言 ， 它 比 堆 夫 受 编码 般 更 为 有 效 ， 但 这 市 来 了 提高 明显 的 计算 复 
杂 度 。 

FE KS Fats te Al BoolCoder 两 者 都 使 用 二 进 制 判决 树 来 表示 多 比特 语法 元 素 。 
每 种 情况 ， 码 树 都 被 转化 为 一 个 树 校 判决 的 序列 ， 且 从 比特 流 中 读 出 直到 遇 到 树叶 
结 点 。 每 个 树叶 结 点 都 有 一 个 相关 的 语法 元 素 。 

两 种 方案 的 差别 在 于 树 校 判决 在 树 结 点 的 编码 方式 。 替 夫 曼 编码 带 用 一 整个 比 
特 来 表示 一 个 给 定 结 点 上 的 分 支 判决 。BoolCoder 利用 叫 作 结 点 概率 的 概率 值 。 结 
点 概率 是 给 定 结 点 左 树 枝 〈 零 ) 的 概率 。 所 以 ，BoolCoder 能 实现 亚 比 特 的 判决 代 
Or [Pl 

KTERE WIDARA A — HE h FU 2 AE, BoolCoder 另外 需要 定义 一 组 结 
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点 概率 。 结 点 概率 规定 为 一 个 数值 的 数组 ， 这 些 值 按照 深度 优先 过 历 树 的 顺序 进行 
排序 。 结 点 概率 以 线性 方式 表示 为 8 比特 : 0 代表 概率 0，255 代表 概率 1。 然而 ， 
值 0 是 明确 禁止 的 。 所 以 ， 有 效 范 围 如 下 [P5 ] : 

1 硅 结 点 概率 <255 (6.1) 


6.14.1 上下文 信 息 的 利用 


不 仅 在 相 邻 符号 间 ， 而 且 在 各 种 编码 参数 之 间 以 及 用 于 编码 相 邻 块 的 工具 之 
间 ， 都 存在 着 大 量 的 统计 相关 性 。 例 如 ， 如 果 最 近 块 以 CODE_INTRA 进行 编码 ， 
那么 就 有 大 约 85% 的 可 能 性 当前 块 也 用 CODE_INTRA 进行 编码 ， 且 只 有 低 至 3% 
的 可 能 性 当前 块 用 CODE_INTER_PLUS_MV 进行 编码 。 所 以 ， 近邻 /最 近 块 的 编 
码 模 式 可 被 用 作 上 下 文 信息 来 对 当前 块 的 编码 模式 进行 编码 。 上 下 文 的 这 种 使 用 
是 一 种 非常 有 用 的 方法 ， 它 利用 了 相 邻 块 和 像素 编码 参数 之 间 的 相关 性 ， 是 一 种 
降低 比特 流 中 统计 信息 量 的 有 用 途径 。 通 过 利用 解码 器 已 有 的 信息 ， 对 一 组 基准 
概率 进行 加 权 以 使 得 他 们 更 好 地 适应 于 当前 的 编码 环境 。 这 就 实现 了 更 有 效 的 炉 
编码 。 

所 以 从 一 个 所 定义 的 上 下 文 的 基准 分 布 得 出 的 条 件 概率 分 布 就 可 用 于 有 效 的 焙 
编码 [P5] 。 


6.14.2 BARE miGs 


KY TIER S Fis ait BS BY LEAS TG ae ET ARS, FES SRS te MRE 
的 二 进 制 码 树 ， 每 个 结 点 再 分 枝 为 左 侧 子 结 点 或 右 侧 子 结 点 ， 由 比特 流 中 读 取 的 下 
一 个 比特 (0 表示 左 ，1 表示 右 ) 来 指明 。 当 遇 到 树叶 结 点 时 遍历 结束 ; 每 个 树叶 
结 点 对 应 一 个 特定 的 语法 元 素 。 

霍 夫 曼 码 树 是 标准 的 。 该 码 树 用 一 组 树叶 结 点 概率 构造 。 然 而 ，VP6 编码 了 一 
组 与 BoolCoder 人 码 树 编码 方式 兼容 的 结 点 概率 ， 而 不 是 编码 树叶 结 点 概率 。 

所 以 ， 解 码 硕 需要 把 比特 流 中 得 到 的 结 点 概率 转化 为 一 组 树叶 结 点 概率 ， 以 便 
于 它们 能 够 创建 霍 夫 受 码 树 。 后 面 的 解码 过 程 是 一 个 以 适当 的 分 校 判 决 届 历 该 树 的 
过 程 。 当 从 树 根 到 树叶 结 点 遍历 时 ， 树 叶 结 点 概率 计算 为 各 个 结 点 概率 的 乘积 ， 再 
进行 适当 的 规范 化 [P5 ] 。 


6.14.3 BoolCoder 


BoolCoder 基于 与 二 进 制 算术 编码 器 相同 的 原理 。 通 过 不 断 地 将 一 个 初始 的 单 
位 区 间 按 照 0 或 1 出现 的 相对 概率 比率 进行 细 分 从 而 实现 对 连续 的 0 或 1 进行 编 
人 码 。 编 码 多 比特 实体 可 被 看 作 是 遍历 一 颗 二 进 制 判 决 树 ， 树 的 每 个 结 点 都 有 一 个 伸 
出 左 (或 0) 树 校 的 相关 概率 。 这 个 概率 被 称 为 是 结 点 概率 。 伸 出 右 〈 或 1) AK 
的 概率 因而 就 是 1 减 去 结 点 概率 [P5]. 
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6.15 VP6 编码 概述 


On2 科技 公司 开发 的 “真实 运动 VP6” (JAX: True motion VP6) 是 市 场 上 具 
有 的 最 好 的 编译 码 系 统 之 一 。 与 Windows Media 9 video [ C16], Real 9 video 
[R1], H.264 [S10] 和 Quick Time MPEG-4 视频 编译 码 系 统 相 比 ， 它 提供 了 更 好 
的 图 像 质 量 和 更 快 的 解码 方案 。AVS China [A14] 是 由 中 国 开发 的 一 款 新 的 经 过 
简化 以 改善 效率 的 高 效 视频 编码 硕 ， 它 使 用 了 最 新 的 编码 工具 ， 用 于 高 清 电视 内 容 
的 编码 。AVS 应 用 领域 包括 广播 电视 、 高 清 DVD 和 宽 市 视频 的 网 络 化 。 因 此 ， 把 
AVS 编码 的 信号 在 互联 网 上 传输 变 得 越 来 越 重 要 ， 实 现 这 一 目的 的 可 能 的 方法 之 
一 就 是 开发 一 个 AVS 到 VP6 的 转 码 器 。 通 过 利用 现 有 的 参考 资料 来 研究 多 种 转 码 
算法 并 有 效 地 实现 它们 从 而 成 功 地 开发 一 个 计算 复杂 度 降低 的 转 码 器 ， 有 人 已 经 提 
交 了 这 样 的 建议 。 

VP6 是 由 0n2 科技 公司 开发 的 编码 技术 。 对 于 现存 的 Windows Media Player, 
Apple QuickTime， 和 Real Network Player 在 互联 网 上 提供 视频 业务 的 播放 人 锅 ，Flash 
Media 正在 作为 一 种 首选 的 解决 方案 而 出 现 。 在 2005 年 ，Macromedia 采纳 VP6 作 
HEK Flash 播放 器 中 的 视频 编码 算法 [P3 ] 。Flash8 中 的 VP6 提供 了 比 现存 标准 
更 好 的 性 能 ， 具 有 更 平滑 的 视频 流 和 低 的 颜色 对 比 视频 图 像 [P3 ] 。 因 此 ， 这 就 为 
开发 AVS 到 VP6 转 码 器 创建 了 一 个 开端 ， 该 转 码 器 把 AVS 编码 的 信号 在 互联 网 上 
发 送 。 



































6. 16 VP56 的 编码 性 能 


视频 压缩 硕 的 目的 是 接收 原始 的 视频 并 将 其 压缩 到 一 种 更 易 处 理 的 形式 以 便于 
传输 或 存储 。 那 么 ， 相 应 的 解压 需 是 用 于 把 视频 转换 回 到 可 以 观看 的 形式 。 大 多 数 
现代 编译 码 器 ,包括 VP6， 都 是 “有 损 的 ”算法 ， 这 意味 着 解码 的 视频 并 非 精 确 
匹配 原始 视频 。 为 了 达到 更 高 的 压缩 比 ， 有 选择 地 牺牲 了 某 些 信息 。 编 译 码 需 设 计 
者 的 技术 就 是 在 最 大 化 压缩 的 同时 最 小 化 这 些 损失 。 

乍 一 看 ，VP6 具有 与 其 他 主要 编译 码 磊 有 许多 共同 之 处 。 它 用 运动 补偿 来 开 
发 时 间 宛 余 ， 用 DCT 来 开发 空间 元 余 ， 用 环 路 滤波 需 来 处 理 块 变换 的 瑕 疫 ， 以 
BAM FA SHE FF A SRT ARSE, AT, “A BE” (原文 : devil is in the 
details 一 一 译 者 注 ) ， 所 以 说 ， 在 这 一 章 我 们 将 讨论 一 些 VP6 的 独特 之 处 。 

使 用 基于 频率 的 块 变换 算法 的 问题 之 一 是 重建 视频 有 时 候 在 块 边界 上 含有 视 
觉 上 讨厌 的 不 连续 性 。 这 些 块 效应 可 以 通过 后 处 理 滤 波 顺 进行 抑制 。 然 而 ， 这 种 
方法 不 能 解决 一 个 事实 ， 那 就 是 这 些 瑕 疲 降 低 了 当前 解压 帧 作为 后 续 帧 预测 器 的 
价值 。 
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一 种 备用 或 补充 的 方法 是 在 编码 器 和 解码 需 的 重建 环 路 中 使 用 一 个 滤波 器 。 这 
种 “ 环 路 滤波 咒 ” 平 滑 了 将 用 于 预测 后 续 帧 的 重建 帧 缓存 器 中 的 块 不 连续 性 。 大 
多 数 情 况 下 这 项 技术 效果 不 错 ， 但 在 某 些 情况 下 会 引起 一 些 问 题 。 首 和 完 ， 对 一 整 幅 
帧 进行 环 路 滤波 需要 很 多 CPU 周期 。 第 二 ， 当 在 一 个 图 像 区 域 没 有 明显 运动 时 ， 
在 几 帧 上 的 重复 滤波 会 导致 一 些 问 题 诸 如 抖动 。 

VP6 对 环 路 滤波 采取 了 不 寻 篆 的 方法 。 事 实 上 ， 有 人 会 痪 这 根本 就 不 说 一 个 环 
路 滤波 需 而 是 一 个 预测 滤波 器 。VP6 不 是 滤波 整个 重建 帧 ， 而 是 等 待 直 到 跨越 块 边 
界 的 运动 矢量 被 编码 为 止 。 只 有 在 这 个 时 候 它 才 复 制图 像 数 据 的 相关 块 并 对 通过 它 
的 块 边沿 进行 滤波 ， 来 创建 一 个 滤波 后 的 预测 块 ( 见 图 6. 22 ) 。 


重建 运动 估计 预测 块 








跨越 预测 块 
边沿 进行 环 
路 滤波 


预测 器 中 没有 块 跨越 预 测 吕 
边沿 意味 着 不 使 中 的 单 边沿 


; 使 用 环 路 
Ù a 
FARR VE E 滤波 器 





On2’s 环 路 滤波 器 不 仅仅 是 一 种 预测 滤波 器 。 它 通过 滤波 图 像 块 
而 不 是 整个 重建 图 像 避免 了 珠 症 累积 ， 而 且 只 对 发 生 运动 的 块 进 
行 滤波 从 而 节约 了 CPU 周期 。 


图 6. 22 VP6 预测 环 路 滤波 需 


因为 重建 缓冲 屁 本 身 是 不 会 被 滤波 的 ， 所 以 没有 累积 瑕 症 诸 如 抖动 这 样 的 危 
险 。 另 外 ， 因 为 只 有 存在 明显 运动 的 地 方才 会 使 用 滤波 器 ， 所 以 这 种 方法 降低 了 大 
多 数 帧 的 计算 复杂 度 。 当 0n2 (科技 公司 译 者 加 ) 首次 在 VP6 中 执行 这 一 方 
法 时 ， 它 在 某 些 视频 剪辑 上 看 到 了 比 传统 环 路 滤波 器 改善 了 高 达 0. 25dB。 

















6. 17 VP6 黄金 帧 


除了 以 前 的 帧 外 ， 某 些 编译 人 码 带 保持 着 为 外 的 可 被 用 作 预 测 带 的 帧 。VP6 和 





VPx HEY St int AEA ie 30 EP ARS AY OB SS to, BEATTY E E 
可 以 来 自 于 过 去 的 任意 距离 (Bea B/S A — Pe ee), 
的 质量 进行 编码 。 


金 帧 。 这 个 由 
常 以 高 于 平均 


6.18 ”背景 /前 景 分 割 





黄金 帧 的 用 途 之 一 是 视频 中 的 前 景 和 背景 的 分 割 。 例 如 ， 在 多 数 视频 会 议 应 用 
中 背景 是 静态 的 。 当 发 言 者 来 回 移 动 时 ， 部 分 育 景 临时 被 遮盖 然后 又 显露 出 来 。 通 
过 在 黄金 帧 缓冲 器 中 创建 并 保持 一 幅 背 景 的 高 质量 图 像 ， 就 有 可 能 在 它们 显露 出 来 
时 很 容易 地 恢复 这 些 区 域 。 这 样 就 有 可 能 保持 背景 的 质量 ， 即 使 在 前 景 中 有 快速 运 
动 的 时 候 。 而 且 ， 节 约 下 来 的 开销 可 用 于 改善 整体 的 编码 质量 。VP6 编码 需 也 使 用 
黄金 帧 来 改善 某 些 类 型 的 场景 质量 。 例 如 ， 在 摄像 机 慢 速 移动 或 缩放 的 时 候 ， 由 于 
重复 使 用 环 路 滤波 天 或 者 亚 像素 运动 滤波 骨 会 造成 细节 损失 ， 而 周期 出 现 的 高 质量 
黄金 帧 能 够 通过 恢复 这 些 损失 的 细节 提高 图 像 质量 。 这 一 高 质量 帧 作为 备用 的 参考 
缓冲 带 一 二 可 以 使 用 直到 被 全 部 更 新 。 只 要 运动 的 速度 不 是 太 快 ， 这 一 帧 在 更 新 之 
后 能 帮助 相当 数量 的 帧 稳定 图 像 和 改善 图 像 质 量 。 

VP6 编码 表 通 过 监视 多 种 因素 来 确定 黄金 帧 更 新 的 最 优 频 率 和 质量 提升 。 这 些 
因素 包括 运动 速度 、 每 帧 预测 下 一 帧 的 质量 ， 以 及 黄金 帧 被 选 为 编码 宏 块 最 佳 参考 
的 频 度 。 这 个 过 程 的 结果 对 于 某 些 视频 勇 辑 可 能 是 相当 引 人 注 目的 ， 如 网 6. 23 
TAR « 



































On2 的 黄金 帧 技术 


通过 保持 一 幅 比 上 一 关键 帧 更 新 的 高 质量 参考 帧 一 一 
黄金 帧 一 一 On2 编 码 器 能 恢复 因 坏 路 滤波 器 和 运动 滤 





波 器 带 来 的 细节 损失 。 在 某 些 场景 下 这 具有 重大 优势 





图 6.23 A (AA) 黄金 帧 与 没有 (AR) 黄金 帧 的 质量 改善 情况 [P7 ] 


第 6 章 VP6 视频 编码 标准 167 





没有 黄金 帧 





图 6.23 有 (AA) 黄金 帧 与 没有 (AA) 黄金 帧 的 质量 改善 情况 [P7] (Be) 


6.19 E FXF m 


一 些 其 他 的 高 级 视频 编译 码 顺 使 用 叫 作 “上 下 文 自 适 应 的 二 进 制 算术 编码 ” 
(CABAC: Context Adaptive Binary Arithmetic Coding) AYMH4atSF278 [ H23 ] 。 这 一 
技术 尽管 从 压缩 的 角度 来 看 是 相当 有 效 的 ， 但 是 加 CPU 周期 而 言 却 是 代价 高 昂 的 ， 
因为 每 当 解码 一 个 符号 就 需要 再 次 计算 上 下 文 。VP6 使 用 一 种 专 有 的 “上 下 文 预 
测 的 二 进 制 算 术 编 码 ” 技 术 ， 它 依靠 在 帧 级 别 上 复杂 的 自 适 应 建 模 。 这 项 技术 假 
定 ， 当 考虑 当前 块 特 定 结果 的 可 能 性 时 ,来 自 空间 相关 块 的 信息 是 相关 的 。 例 如 ， 
在 考虑 一 个 特定 DCT 系数 非 零 的 概率 时 ， 相 邻 块 中 相同 系数 的 信息 可 能 就 是 很 重 
要 的 。 这 里 ， 很 重要 的 一 点 就 是 ， 编 码 带 在 帧 级 别 上 进行 了 启发 式 建 模 并 将 相关 上 
下 文 信息 在 比特 流 中 传递 给 解码 右 。 这 意味 着 ， 在 解码 右 中 不 必要 逐 符 号 (token) 
地 计算 上 下 文 。 


6.20 CORDS 


为 了 在 建立 快速 解码 器 中 提供 灵活 性 ，VP6 的 编码 比特 流 是 分 段 的 。 所 有 的 预 
测 模式 和 运动 天 量 存放 在 一 个 数据 段 中 ， 残 差 信 息 存 放 在 另 一 个 数据 段 。 这 样 ， 创 
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建 一 个 预测 需 帧 和 解码 残 差 信 号 的 工作 就 很 容易 地 分 开 并 以 最 小 的 开销 运行 在 不 同 
的 内 核 上 。 通 过 交 蔡 地 从 一 个 子 比特 流 (substream) 中 抽取 出 模式 和 运动 天 量 信 
上 县， 从 其 他 子 比特 流 抽取 宏 块 的 残 差 信号 ，VP6 解码 器 能 够 一 次 解码 和 重建 一 个 窑 
块 。 这 两 种 极端 之 间 的 任何 折 中 都 是 可 能 的 ， 在 优化 性 能 和 最 小 化 数据 与 指令 缓 仓 
丢失 的 时 候 提 供 了 最 大 的 灵活 性 。 


6. 21 ” 双 模 式 算术 与 变 长 编码 


除了 它 专 有 的 “上 下 文 预测 的 二 进 制 算术 编码 ”算法 ，VP6 th sca “AK i 
人 码 (VLC, Variable Length Coding)”。 与 算术 编码 需 一 样 ，VLC 编码 需 利 用 预测 的 
上 下 文 来 改善 压缩 效率 。 与 算术 编码 方法 相 比 ，VLC 方法 的 效率 非常 依赖 数据 率 。 
在 很 高 的 数据 率 上 ， 残 差 信 号 中 大 多 数 DCT 系数 非 零 ，VLC 编码 右 与 算术 编码 右 
之 间 的 区 别 很 小 (入 2% ) 。 然 而 ， 在 低 数据 率 上 ， 算 术 编 码 硕 可 能 在 压缩 效率 方 
面 给 出 非常 大 的 改善 ( >20% ) 。 

因为 比特 流 在 一 边 的 预测 模式 和 运动 矢量 与 在 另 一 边 的 残 差 信号 之 间 的 划分 方 
法 ，VP6 可 以 文 持 VLC 和 算术 混合 编码 。 这 样 ， 一 部 分 (一般 是 模式 和 运动 矢量 ) 
用 算术 编码 法 编码 而 其 他 部 分 用 VLC 方法 编码 。 这 使 得 编码 天 能 以 非常 有 效 的 方 
法 来 平衡 解码 希 复 杂 度 和 质量 。6. 23 部 分 描述 了 这 种 方法 如 何 用 在 最 近 发 布 的 
Flash 里 的 VP6-S 档次 中 。 


6.22 ” 自 适 应 亚 像素 运动 估计 


VP6 的 一 个 很 不 寻常 的 特征 是 ， 在 创建 亚 像素 运动 矢量 (例如 1/2 和 1/4 运动 
矢量 ) 的 预测 块 时 它 使 用 多 个 2 抽 头 和 4 抽 头 滤波 器 的 方法 。 通 常 ， 编 译 码 器 对 所 
有 的 块 使 用 单一 的 滤波 器 。 相 反 ，VP6 支持 16 种 不 同 的 4 抽 头 滤波 器 ， 都 具有 不 
同 的 特征 ， 对 2 抽 头 双 线性 滤波 器 也 是 如 此 。 编 码 器 可 以 或 者 在 帧 级 别 上 选择 一 个 
特定 的 滤波 器 ， 或 者 按照 一 个 编码 器 和 解码 器 两 者 都 执行 的 启发 式 算法 指示 该 选择 
应 该 在 8 x8 块 级 别 上 实现 。 这 个 算法 在 所 选 位 置 检查 参考 帧 的 特点 并 试图 为 每 一 
块 选择 最 优 小 波 器 ， 这 个 块 就 会 既 不 过 分 模糊 又 不 过 分 尖锐 。 甚 至 比特 流 会 允许 稍 
微调 整 滤波 器 选择 算法 的 参数 ， 所 以 用 户 能 在 编码 过 程 中 对 于 较 锐 化 的 视频 或 者 有 
噪点 且 斑 双 的 视频 规定 一 种 偏好 。 提 供 这 一 特征 是 因为 认识 到 对 于 不 同类 型 压缩 玫 
席 的 态度 和 接受 程度 随 着 不 同 的 人 和 不 同 的 文化 而 有 相当 的 不 同 。 





























6.23 VP6-E 和 VP6-S 编码 器 档次 





Adobe 公司 最 近 宣 称 支 持 Flash 中 的 叫 作 VP6-S 的 新 VP6 档次 。 这 种 支持 是 在 
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编码 端 。 在 解码 端 ， 自 从 Flash 8 中 的 VP6 视频 投放 以 来 ，VP6-S 和 最 初 档 次 
(VP6-E) 已 被 充分 地 支持 ， 所 以 没有 后 向 兼容 的 问题 。 两 个 档次 之 间 的 主要 差别 
归结 为 编码 器 关于 亚 像 素 运 动 估计 、 环 路 滤波 器 和 信 编 码 所 做 的 判定 。 如 以 前 提 到 
的 那样 ，VP6 在 所 有 的 这 些 领域 都 允许 相当 大 的 灵活 性 。 

VP6-S 瞄准 高 清 内 容 ， 其 特征 是 高 的 数据 率 。 在 这 些 数 据 率 上 ， 从 压缩 效率 的 
观点 来 看 ，VP6 的 “上 下 文 预测 的 二 进 制 算术 编码 ”编码 器 和 它 的 “上 下 文 预测 
的 VLC” 之 间 的 差别 是 不 太 明 显 的 。 然 而 ， 高 数据 率 下 用 在 炉 解 码 阶 段 中 的 CPU 
周期 数 大 大 提高 。 为 了 解决 这 个 问题 VP6-S 对 残 差 部 分 有 选择 地 使 用 VLC 方法 ， 
如 果 那 个 部 分 的 大 小 超过 了 一 个 预定 的 水 平 。 通 过 如 上 所 述 的 VP6 使 用 的 两 个 比 
特 流 部 分 ， 这 种 折 中 是 有 可 能 的 。 

此 外 ，VP6-S 限定 使 用 双 线 性 亚 像素 滤波 器 ，VP6-EE 自动 为 每 个 宏 块 选择 一 
个 最 优 的 4 抽 头 或 2 抽 头 滤波 器 。 这 显著 降低 了 VP6-S 解码 器 的 复杂 度 。 尽 管 双 
线性 滤波 可 能 引起 某 些 明锐 度 和 细节 的 损失 ， 但 对 于 高 清 视频 来 说 是 十 分 不 明显 
的 。 质 量 损失 对 于 较 小 的 图 像 格 式 是 明显 的 ， 使 得 VP6- 下 称 为 这 种 情况 下 的 较 好 
选择 。 

最 后 一 个 重要 的 区 别 是 VP6-S 禁用 环 路 滤波 器 ， 从 而 进一步 降低 了 解码 吉 的 
复杂 度 。 与 使 用 双 线 性 滤波 一 样 ， 从 质量 的 观点 来 看 此 举 的 不 利 影响 对 于 高 清 视 频 
来 说 是 很 不 明显 的 。 然 而 ， 这 个 区 别 使 得 VP6-S 对 于 较 小 的 图 像 格式 诸如 QCIF 和 
QVGA 很 不 适应 ， 这 时 没有 环 路 滤波 器 会 导致 视 觉 质量 下 降 得 非常 明显 。 

上 面 描述 的 折 中 方案 使 得 用 VP6-S 档次 编码 的 高 清 视 频 有 可 能 在 处 理 能 力 很 
低 的 难以 更 新 的 老 旧 计算 机 上 平滑 地 回放 ， 而 没有 太 大 的 质量 问题 。 然 而 ， 原 始 的 
VP6- E 档次 应 该 用 于 较 小 的 图 像 格 式 且 用 在 低 的 数据 率 下 ， 在 此 情况 下 它 会 传送 
明显 更 好 的 质量 。 




















6.24 ”设备 端口 与 硬件 实现 


除了 面向 基于 PC 的 Windows, Mac 和 Unix 的 实现 ，VP6 已 被 移植 到 种 类 繁多 
的 来 自主 要 公司 的 设备 、 世 片 组 和 处 理 需 ， 如 ARM、 德 州 仪器 (OMAP 和 DaVinci), 
飞利浦 (Philips), KE F/K (Freescale), 、 漫 威 (Marvell), 、C2 Videantis, 8 JE 
(Sony), JEB (Yamaha) 和 Archos, MH., On2 发 布 了 一 款 VP6 的 高 度 优化 的 
实现 人 硬件 [P7] ， 它 在 2008 后 半年 开始 推 向 市 场 。 这 个 实现 硬件 用 在 移动 手持 设 
备 的 片上 系统 (SoCs) 和 其 他 低 功 率 应 用 中 ， 也 能 在 移动 电话 上 进行 VP6 视频 的 
高 清 回 放 。 

谷歌 公司 在 2010 年 2 月 10 日 宣称 它 已 经 完成 了 对 0n2 科技 公司 的 收购 。 继 
VP 之 后 ，0n2 科技 /谷歌 已 经 开发 了 VP7 一 VP10。 

VP9/VP10 的 相关 网 址 为 





http ://blog. webmproject. org/2010/06/future- of- vp8 - bitstream. html 

http://www. webmproject. org/code/ repository- layout 

http ://review. webmproject. org/#change ,56 

其 中 有 关 此 时 PO/VP1O 最 近 的 东西 是 WebM 实验 分 部 ， 它 是 开源 的 上 且 可 免费 
获得 。 

(IK 蒙 : http://eetimes. com/design/signal- processing- dsp/4017748/ The- VP8- video- 
codec- High- compression- low- complexity ) 

2008 年 秋季 宣称 的 0n2 科技 公司 第 8 (CME AS at On2 VP8 ， 能 在 比特 流 
中 提供 压缩 性 能 的 显 车 增益， 与 它 的 前 一 代 (VP7) 或 其 他 苋 争 技术 如 H. 264 相 
比 解 压 的 计算 量 更 低 。 继 承 了 许多 前 代 版 本 (VP7 和 VP6) 的 重大 创新 ， 诸 如 黄 
金 帧 、 处 理 希 目 适 应 的 实时 编码 和 低 复杂 度 环 路 滤波 秀 ，VP8 又 增加 了 50 多 种 新 
技术 以 很 低 的 复杂 度 实现 低 比特 率 下 的 杰出 性 能 。 

On2 VP8 的 设计 过 程 考虑 到 了 实现 便 件 的 广泛 性 ， 从 60 MHz 的 ARM9 Xb Flat 
到 今天 的 高 度 并 行 的 多 核 处 理 希 。 它 在 低 端 机 带 上 实时 编码 ， 而 且 能 比 其 他 主要 算 
法 花费 较 少 的 时 间 解 码 。 下 面 这 篇 文章 探索 了 使 得 VP8 工作 如 此 出 色 的 一 些 创新 
ZH 

J. Bankoski et al. , “Towards a next generation open- source video codec” SPIE/ EI, 
vol. 8666-7, Burlingame, CA, Feb. 2013. 摘要 如 下 : 

最 近 ， 谷 歌 公 司 已 经 开始 开发 一 种 下 一 代 开源 视频 编译 码 天 一 一 叫 作 VP9， 作 
为 包含 在 WebM 项 目 (http://www. webmproject. org/) libvpx 库 实 验 分 部 的 一 部 分 。 
从 2010 年 谷歌 发 布 的 VP8 视频 编译 码 融 开始 作为 基准 ， 又 加 入 了 许多 改善 措施 和 
新 工具 来 提高 编码 效率 。 这 篇 文 草 给 出 了 这 个 项 目 当前 状态 的 一 个 技术 总 览 ， 以 及 
与 其 他 最 新 的 视频 编译 码 右 H. 264/AVC 和 HEVC 的 比较 。 到 目前 为 止 ， 加 入 的 新 
工具 包括 : 可 达 64 x64 的 更 大 的 预测 块 太 寸 、 多 种 形式 的 复合 帧 间 预 测 、 帧 内 预 
测 的 更 多 模式 、1/8 像素 的 运动 天 量 和 8 抽 头 可 切换 亚 像素 内 搬 滤 波 关 、 改 进 的 运 
SBS wy AE EMG AGS NA ee GSE R Sn HS AAT AS TR] FF SE GA E 
机 制 、 改 进 的 环 路 滤波 、 非 对 称 离散 正弦 变换 和 较 大 的 16 x 16 All 32 x 32DCT 的 集 
成 、 把 相似 区 域 分 到 同 组 的 帧 级 别 分 割 等 等 。 其 他 工具 和 多 种 比特 流 特征 也 在 活跃 
地 发 挥 着 作用 。VP9 比特 流 已 完成 于 2013 年 6 月 。 结 果 表 明 ， 与 主流 的 最 新 编译 
人 码 融 相 比 ，VP9 在 性 能 方面 相当 具有 苋 争 力 。 

Mukherjee 等 用 BD 率 作 为 对 比 测度 [P14] 得 出 结论 ，VP9 的 性 能 不 亚 于 
HEVC。(29 个 CIF 分 辨 率 和 15 FREDRE) 测试 序列 用 于 执行 这 一 对 比 。 









































6.25 Be 


本 章 给 出 了 0n2 科技 公司 开发 的 VP6 编码 回 细 节 和 VP9/VP1O 的 网 址 。 第 7 
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章 将 比较 Dirac AAAS aay H. 264/AVC (第 4 章 )。 


6.26 ”专题 研究 


P.6.1 


P. 6.2 


P. 6.3 


P. 6.4 


P. 6.5 


P. 6.6 


Padia [P8] 使 用 运动 矢量 重用 实现 了 VP6 到 H. 264 (第 4 章 ) 转 码 器 复 
林 度 的 下 降 。 请 实现 它 并 获得 论文 中 给 出 的 结果 。 

据 建议 [P8] ,通过 利用 运动 矢量 细 化 而 不 是 运动 矢量 重用 ，VP6 到 
H. 264 (第 4 和 草 ) 转 码 的 视频 质量 可 以 进一步 改善 。 请 实现 之 。 

P. S. Padia 的 毕业 论文 、PPT 和 建议 可 以 从 www-ee. uta. edu/dip 访问 。 点 
击 课程 并 点 击 EE5359。 向 下 滚动 到 毕业 论文 和 专题 列表 。 

请 实现 叫 作 VP9 的 下 一 代 开 源 视 频 编 译 码 器 (编码 磊 和 译 但 需 ) 并 与 
VP8, H.264/AVC (第 4 章 ) 和 HEVC (第 5 章 ) 比较 性 能 。 人 参见 [P12]. 
参见 P. 6.3。 在 结论 中 ，Bankoski 等 声明 ，VP9 比特 流 要 在 2013 上 半年 完 
成 。 然 后 他 们 期 望 主 办 一 个 有 关 优 化 编译 码 融 的 速度 和 质量 以 及 优化 特定 
的 应 用 情况 诸如 网 络 上 的 视频 点 播 和 视频 会 议 的 libvpx 库 方 面 的 活动 。 同 
时 ，libvpx 库 的 实验 分 部 (原文 branch 译 者 ) 将 继续 繁 末 并 在 开发 新 
的 编码 工具 方面 保持 活路 ,这些 工具 将 有 和 希望 在 某 一 天 成 为 VP10 的 一 部 
分 。 请 探索 各 种 可 能 的 应 用 中 的 编译 码 需 优化 问题 。 

在 论文 “Technical overview of VP8, an open source video codec for the web” 
中 ， 作 者 Bankoski, Wilkins 和 Xu (IEEE 关于 ICME 的 国际 会 议 ，2011 年 
7A) [P13] 指出 , 来自 WebM 项 目 组 的 VP8 参考 编码 器 实现 方案 仍然 没 
有 充分 利用 论文 中 所 描述 的 那些 VP8 的 全 部 特征 。 他 们 还 建议 了 许多 其 他 
技术 。 因 此 ， 在 VP8 编译 码 融 未 来 的 版 本 中 会 有 很 大 的 创新 潜力 。 请 充分 
探索 这 一 分 述 并 详细 人 研究， 使 得 VP8 的 压缩 性 能 可 被 进一步 提高 。 这 需要 
对 除 H. 264 (第 4 章 ) 之 外 还 要 对 VP8 有 透彻 的 理解 。 

P [14] 提供 了 VP9 技术 的 人 简要 总 览 并 声称 它 与 H.264 (第 4 章 ) 和 HEVC 
(第 5 章 ) 比较 具有 相当 的 竞争 力 。 请 详细 越 大 这 篇 论文 并 证 实 它 的 测试 结 
果 。VP9 之 最 新 的 开源 编译 码 需 。 请 访问 http://www. webmproject. orgo 























第 7 章 Dirac 视频 编译 码 器 与 H. 264/MPEG-4 
第 10 部 分 的 性 能 分 析 和 对 比 


摘要 H BBC 开发 的 Dirac 视频 编译 码 器 不 同 于 其 他 的 标准 ， 因为 采用 了 小 波 
变换 而 不 是 整数 DCT。 本 章 列 出 了 小 波 变 换 的 利 次 。 除 了 Dirac 编码 器 的 细节 ， 还 
基于 MSEAPSNR、 比 特 率 和 SSIM 利用 多 个 测试 序列 给 出 了 与 H.264/AVC 的 性 能 
be 

关键 词 : Dirac BBC 小波 变换 小 波 滤波 器 死 区 量化 OBMC DF 压缩 
比 测试 PSNR 测试 SSIM MR 





7.1 AY 


山 


视频 压缩 的 目的 是 尽 可 能 有 效 地 利用 有 限 的 存储 容量 和 传输 能 力 ， 这 对 于 互联 
网 和 高 清 媒体 是 很 重要 的 。Dirac 是 由 BBC 开发 的 一 个 开放 且 免 于 使 用 许可 税 的 视 
waa eS as [D1] [D25] ， 旨 在 为 从 网 络 视频 到 高 清 视频 提供 高 质量 的 视频 压缩 ， 
[D20] 这 样 就 可 以 与 现存 的 视频 格式 诸如 H. 264/AVC [H3, H23, H25, H29] 
FI SMPTE VC-1 相 匹 敌 。 从 低 分 辨 率 QCIF (176 x 144 像素 ) 到 高 清 电视 (1920 x 
1080) LAS yA a BRR, Dirac 可 以 压缩 任何 大 小 的 图 像 ， 类 似 于 公共 视频 编译 
码 需 诸如 ISO/IEC 运动 图 像 专 家 组 (MPEG) 的 MPEG-4 第 2 部 分 [S9] [H13] 
和 微软 的 SMTCVC-1。 

Dirac 使 用 小 波 变 换 而 不 是 用 在 其 他 编译 码 器 中 的 离散 余弦 变换 及 其 整数 版 本 
[ B12 ] 。Dirac 软件 是 一 款 可 被 自由 修改 和 利用 的 实现 原型 。Dirac 的 解码 器 是 特别 
设计 得 比 其 他 传统 解码 各 快速 且 更 加 灵巧 。 产 生 的 规格 实现 起 来 简单 又 直接， 而 且 
进行 了 优化 以 提高 实时 性 能 [D1]。 开 源 软 件 诸如 VLC [V11] 播放 带 能 解码 并 显 
IRTE MPEG-2 传输 的 视频 流 或 mp4 (“. mov”) 文件 。 

除了 C++ 的 Dirac 参考 代码 ， 还 有 一 个 叫 作 Schrödinger [ D20] 的 高 速 开 源 
ANSI C 实现 正在 积极 的 开发 之 中 。 作 为 一 个 C JE Schrödinger 是 一 个 Dirac 视频 压 
缩 规格 的 跨 平 台 实现 方案 。 许 多 媒体 框架 诸如 GStreamer [D35] 和 ffmpeg [ V10 | 
以 及 诸如 VLC 这 样 的 应 用 都 使 用 Schrodinger 来 编 解 码 视频 。 Schrödinger FÉ Dirac EB 
考 代码 更 为 优化 ， 而 且 在 大 多 数 编码 情况 下 就 编码 速度 和 视觉 质量 方面 的 性 能 更 好 
[D20]。 目 前 Dirac 实现 方案 的 进展 在 diracvideo. org 提供 。 

Dirac 编译 码 胡 的 与 帧 内 编码 有 关 的 大 部 分 已 被 批准 为 SMPTE 2042 (VC-2) 
中 的 一 个 国际 标准 。Dirac 的 这 一 帧 间 编 码 帧 版 本 叫 作 DiracPro, [D23] 强调 质量 
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和 低 时 延 。 优 化 它 是 为 了 专业 生产 、 存 档 应 用 但 不 是 终端 用 户 分 配 [D12 ] 。 
7.2 Dirac 的 体系 结构 


在 Dirac 编译 码 融 中， 图 像 的 运动 被 跟踪 且 运 动 信 息 被 用 于 进行 后 面 帧 的 预 
测 。 借 助 运动 补偿 ， 对 于 当前 帧 和 以 前 帧 之 间 的 预测 误差 施行 变换 ， 变 换 系 数 被 量 
VAIS [ D1] 。 时 间 和 空间 元 余 分 别 被 运动 估计 、 和 运动 补偿 和 离散 小 波 变换 去 
BR, Dirac 使 用 了 一 种 叫 作 算术 编码 的 灵活 又 有 效 的 精 编 码 形式 ， 它 把 比特 高 效 地 
塞 进 比特 流 中 [D1]. 


7.2.1 Dirac 编码 器 


视频 编码 是 一 个 准备 视频 用 于 输出 的 过 程 ， 其 中 的 数字 视频 被 编码 通过 视频 编 
码 软 件 的 使 用 来 满足 记录 和 回放 所 需 的 合适 的 格式 和 规格 [D21] 。 视 频 流 的 质量 
部 分 地 取决 于 视频 编码 过 程 和 恰当 观看 视频 所 需 的 带宽 。 编 码 视 频 的 时 候 ， 对 视频 
和 音 轨 都 要 进行 高 度 地 压缩 ， 以 便于 它 会 以 这 个 速度 传输 。 

在 Dirac 编码 器 [D1] [D21] ( 见 图 7.1) 中 ， 整 个 压缩 数据 打包 在 一 个 简单 
的 字 节 流 中 。 这 种 做 法 具有 同步 化 、 人 允许 快速 而 高 效 地 访问 任何 一 帧 一 一 使 得 编辑 
简单 化 。 这 样 的 结构 使 得 整个 字 节 流 可 被 打包 进 许多 现存 的 传输 率 中 。 这 个 特征 允 
许 范围 很 广 的 编码 选项 ， 以 及 容易 地 访问 所 有 其 他 产品 制作 或 广播 元 数据 所 需 的 数 
据 传 输 系 统 。 























运动 补偿 








运动 估计 


图 7.1 Dirac 编码 器 的 结构 [D1] [D25] 


运动 矢量 数据 


在 图 7. 1 中 ， 每 一 视频 帧 输入 Vin 与 前 一 个 运动 补偿 的 参考 帧 P 进行 比较 以 获 
得 e， 即 运动 补偿 的 预测 误差 (MCPE, Motion Compensated Prediction Error), eTQ 
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是 经 历 小 波 变换 、 缩 放 和 量化 后 的 MCPE ， 而 且 它 辅助 箭 编 码 。e' 是 缩放 和 逆 量 化 
之 后 的 MCPE。e' 与 P (预测 帧 ) 相 结 合 可 得 到 Vlocal， 它 在 运动 估计 阶段 对 于 生 
成 运动 矢量 数据 是 很 有 用 的 。P 在 每 次 运动 补偿 之 后 进行 更 新 。 
7.2.2 Dirac 解码 器 

Dirac 解码 胡 [D1] [D21] fA ane ÁJ PRE A SC OE OS. Ae 
放 、 逆 量化 和 逆 变 换 来 获得 重建 数据 。 图 7. 2 所 示 为 一 幅 Dirac 解码 过 程 的 近似 框 
Klo Dirac 的 解码 锅 实 现 方案 的 设计 提供 快速 解码 的 同时 ， 保 持 在 多 种 软件 平台 之 


间 的 便携 性 。 











Dirac 


比特 流 

















帧 缓冲 








图 7.2 Dirac 解码 器 结构 [D1] [D25] 


7.3 Dirac 中 的 编码 和 解码 阶段 


7.3.1 小 波 变 换 


2D 离散 小 波 变换 (DWT) 为 Dirac 提供 在 一 系列 分 辩 率 上 运行 的 灵活 性 。 这 
是 因为 小 波 同 时 工作 在 整 幅 图 像 上 ， 而 不 是 每 次 集中 在 小 的 区 域 上 。 在 以 大 致 对 频 
率 敏 感 (原文 : roughly frequency- sensitive 一 一 译 者 注 ) 的 方式 解除 数据 相关 方面 ， 
Dirac 中 的 DWT 发 挥 着 与 MPEG-2 中 的 DCT 相同 的 作用 ， 同 时 具有 保持 比 基 于 块 
的 变换 更 好 的 细节 的 优势 。 合 成 滤波 右 能 去 除 由 关键 采样 引入 的 混 秋 现象 并 能 完美 
地 重建 输入 。 小 波 变 换 通 过 对 信号 重复 滤波 生成 低频 和 高 频 部 分 得 以 实现 。 对 于 二 
维 信号 ， 这 种 滤波 在 水 平和 垂直 方向 都 会 进行 。 在 每 个 阶段 ， 水 平 低频 /垂直 低频 
子 带 会 进一步 分 解 ， 形 成 了 对 数 频率 的 子 带 分 解 [ D20 ] 。 
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小 波 变换 已 被 证 明 ， 对 于 静止 图 像 是 比 块 变换 更 为 有 效 的 方法 。 在 Dirac 小 波 
滤波 锅 中 ， 数 据 进行 三 级 编码 ， 如 图 7. 3 所 示 。 





图 7.3 Dirac 的 小 波 变换 框架 [D5] (2006 IEEE) 


Daubechies 小 波 滤 波 器 [D18] [D19] 用 于 变换 旦 将 数据 分 解 为 子 带 ,然后 用 
相应 的 RDO (Rate Distortion Optimization， 率 失真 优化 ) 参数 进行 量化 ， 再 进行 变 
长 编码 。 那 么 ， 在 解码 希 这 三 个 阶段 就 要 逆 过 来 [D5 ]。 

小 小 滤波 需 的 选择 对 于 压缩 性 能 是 有 影响 的 。 为 了 降低 振 铃 效应 和 其 他 影 啊 从 
而 紧 致 地 表示 平滑 区 域 ， 滤波 各 需要 具有 紧 致 的 脉冲 响应 。 为 外 ,滤波 各 对 于 软件 
的 编码 和 解码 速度 也 有 影响 。Dirac 文 持 数量 众多 的 滤波 需 来 运行 在 复杂 度 和 性 能 
之 间 取 得 平衡 。 这 些 在 参考 软件 中 是 可 以 配置 的 [D20], 

Dirac 可 用 的 一 种 滤波 天 是 Daubechies (9, 7) 低 通 小 波 滤波 带 的 一 种 近似 ， 
它 的 提升 阶段 定义 如 下 : [D20] 








Sn 一 Xn 
d, = Yanl 
6497 (s; ES a) 
4096 
217(d, +d,.1) 
4096 
3616(s) +5) 4, ) 
4096 
1817(d +d) 
4096 





1 _ 70 
d, = d, 





dË =d} + (7.1) 





AF, s RNA, d 表示 差 。 

式 (7.1) 中 的 数字 是 Daubechies 提升 系数 的 整数 近似 。 这 使 得 变换 是 完全 可 
逆 的 。 这 种 实现 方案 忽略 了 缩放 系数 ， 因 为 这 些 可 以 通过 适当 地 对 量化 噪声 加 权 在 
量化 需 选 择 中 加 以 考虑 。 这 个 滤波 需 的 问题 是 它 有 四 个 提升 阶段 ， 因 此 需要 软件 消 
耗 较 长 的 时 间 [D20], 











(5, 3) Daubechies jay i UEVK ai Ea — TP hom: [ D20 ] 


Ce +541) 





d =d = 3 (7.2) 
1 _ 0 (d+d)_,) 
S =S 4 


DWT 把 大 多 数 信息 打包 在 仪 仪 几 个 子 之 (低频 ) 中 如 图 7.4 所 示 ， 这 就 使 压缩 成 
为 可 能 。 大 多 数 能 量 被 集中 在 LL 子 市 里 面 。 所 有 其 他 的 子囊 可 以 进行 粗糙 的 量化 。 





图 7.4 小 波 变换 的 几 个 阶段 


这 个 过 程 可 被 重复 执行 来 实现 更 高 级 的 小 波 变 换 。 在 二 维 图 像 的 情况 下 ,通常 
对 图 像 的 每 个 分 量 在 水 平和 垂直 方向 上 应 用 小 波 滤波 器 以 产生 四 个 子 带 ， 就 是 所 谓 
的 低 - 低 (LL) ， 低 -高 (LH) ， 高 - 低 (HL) 和 高 -高 (HH) 子 市 。 在 二 维 情 况 
F, RA LL 子囊 被 迭代 分 解 来 获得 二 维 谱 分 解 ， 如 图 7.5 所 示 [D20], 








图 7.5 小 波 变换 的 频率 分 解 [DS] (2006 IEEE) 


7.3.2 缩放 和 量化 
缩放 涉及 应 用 小 波 变 换 之 后 接收 帧 数据 并 缩放 系数 来 执行 量化 。 量 化 使 用 了 
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一 个 率 失 真 优化 算法 来 从 帧 数据 中 剥离 出 信息 ， 该 算法 能 产生 尺 可 能 少 的 视觉 


大 
输出 电 平 
We pa 


7 5 3 3 5 7 
7 A A —A 0 人 5A 5A zô 


2 2 
-一 ze 一 一 
图 7.6 市 有 质量 因数 的 死 区 量化 天 


Dirac 使 用 不 同 于 均匀 量化 融 的 死 区 量化 希 技 术 ， 第 一 组 量化 级 步 长 是 其 他 步 长 
宽度 的 两 倍 。 该 方法 简单 有 效 ， 人 允许 Dirac 在 较 小 的 数值 上 进行 粗糙 的 量化 [D5]. 


7.3.3 AaB 


CE) PERI, STE METAS EER, ERR SPITE: 二 进 
制 化 、 上 下 文 建 模 和 算术 编码 [D5] ， 如 图 7.7 所 示 。 第 一 阶段 的 目的 是 提供 一 个 
易于 分 析 统 计 分 布 的 比特 流 ， 它 可 用 算术 编码 法 来 编码 。 算 术 编 码 能 自 适应 于 那些 
统计 分 布 ， 反映 任何 局 部 的 统计 特征 。Dirac 中 的 上 下 文 建 模 基于 这 样 的 原理 . 不 
论 一 个 系数 大 小 ， 都 可 以 从 它 的 相 邻 系数 或 父系 数 很 好 地 预测 出 来 [ D2] 。 算 术 编 
码 [DC1] 执行 无 损 压 缩 ， 既 灵活 又 高 效 。 








运动 矢量 


数据 





图 7.7 Dirac 的 烂 编 码 结 构 [D5] (2006 IEEE) 

小 波 变 换 高 频 子 珊 的 非 零 值 常常 也 在 图 像 的 相同 部 分 ， 就 像 他 们 在 低频 子 之 那 
FE, Dirac 建立 了 这 些 相关 性 的 统计 模型 ， 算术 编码 允许 我 们 利用 这 些 相关 性 来 实 
现 更 好 的 压缩 。 编 码 右 所 估计 的 运动 信息 也 使 用 统计 建 模 和 算术 编码 将 它 压缩 到 最 
少 的 比特 数 。 这 些 压缩 数据 被 放 和 人 比特 流 中 ， 作 为 压缩 视频 的 一 部 分 由 译 码 融 来 
使 用 。 

7.3.4 运动 估计 
运动 估计 通过 查找 相 邻 帧 间 的 相似 性 来 开发 视频 流 中 的 时 间 宛 余 。 图 7.8 所 示 








为 用 在 Dirac 参考 软件 中 运动 佑 计 技 术 的 一 个 例子 。 
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低 通 滤波 器 















图 7.8 分 级 运动 估计 


在 第 一 阶段 ， 通 过 分 级 块 匹配 为 每 一 参考 帧 和 每 一 块 确定 像素 精度 的 运动 矢 
量 。 在 第 二 阶段 ， 通 过 在 紧邻 帧 中 搜索 亚 像素 值 对 这 些 像素 精度 的 矢量 进行 细 化 。 
在 最 后 阶段 ， 对 每 一 宏 块 进行 模式 判定 ， 确 定 宏 块 分 裂 的 级 别 和 每 个 预测 单元 的 预 
测 模式 。 这 一 最 后 阶段 包含 进一步 的 块 匹 配 ， 因 为 块 运动 矢量 被 用 作 高 级 预测 单元 
的 候选 项 [D3]. 

在 分 级 运动 估计 中 ，Dirac 首先 利用 12 抽 头 的 下 转换 滤波 器 [D8] 转换 各 种 
类 型 的 帧 间 编 码 帧 ( 既 有 P 预测 帧 又 有 B 双向 内 插 帧 ) 的 当前 帧 和 参考 帧 的 大 小 。 
下 转换 滤波 需 是 种 低 通 滤波 器 ， 人 允许 通过 想 要 的 信号 并 在 抽样 之 前 执行 抗 混 二 滤 
波 。 任 何 适当 的 低 通 滤波 器 包括 FIR, IR 和 CIC 滤波 器 都 可 以 使 用 [D31]. FHR 
换 的 级 数 取决 于 帧 格式 [D8 |]。 

Dirac 也 定义 了 三 种 类 型 的 帧 。 帧 内 编码 (1) 帧 不 参考 序列 中 的 其 他 帧 进行 编 
码 。 第 一 级 (L1) 帧 和 第 二 级 (1L2) 帧 都 是 帧 间 编 码 帧 ， 也 就 是 说 ， 它 们 参考 以 
前 编码 的 帧 进行 编码 。 

Ll FI L2 帧 的 区 别 在 于 Ll 帧 也 会 用 作 其 他 帧 的 参考 ， 而 L2 帧 不 会 [D2 ] 。 
利用 标准 帧 组 (GOP, Group of Pictures) 结构 的 帧 编码 预测 结构 如 图 7.9 所 示 。 
Dirac 的 每 一 帧 可 以 从 最 多 两 个 参考 帧 中 预测 。 预 测 模式 会 随 着 预测 单元 而 变 ， 
且 有 四 种 可 能 性 : 帧 内 模式 、 仪 参考 1 模式 、 仅 参考 2 模式 、 和 参考 1 和 2 ( 双 问 
预测 ) [D3]. 
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图 7.9 Dirac 的 LL 和 LI1 帧 [TD4] (IEEE 2006) 


7.3.5 运动 补偿 


运动 补偿 用 来 预测 当前 帧 。Dirac 利用 基于 重合 块 的 运动 补偿 (OBMC, Over- 
lapped Block- based Motion Compensation) 来 实现 好 的 压缩 性 能 并 避免 块 边沿 效应 ， 
用 小 波 编 码 该 效应 代价 高 郧 。OBMC 人 允许 相 邻 块 的 互动 并 用 基本 块 来 执行 ， 这 些 基 
本 块 被 安排 进 含有 一 个 4 x4 的 块 阵列 的 宏 块 中 [ D3]。 

应 该 在 水 平和 垂直 方向 上 有 一 个 宏 块 的 精确 数目 。 这 是 由 数据 填充 来 实现 的 。 
因为 在 运动 补偿 之 后 进行 小 波 变 换 ， 这 一 过 程 对 于 分 割 性 具有 自己 的 要 求 ， 故 还 会 
需要 进一步 的 填充 [D20]. 

尽管 Dirac 并 非特 别 设计 使 其 具有 可 扩展 性 ,但 块 大 小 是 唯一 不 可 扩展 的 因 
素 ， 而 且 对 于 较 低 分 辩 率 的 帧 可 以 很 容易 地 选择 较 小 的 块 。Dirac 的 OBMC 方案 基 
于 可 分 离 的 线性 斜坡 掩 模 。 它 在 预测 块 上 充当 一 个 加 权 函 数 。 给 定 第 1 帧 的 一 个 像 
素 p =p(x，y, t), p 可 能 落 在 仅仅 一 个 块 之 内 或 最 多 四 个 块 之 内 如 果 它 位 于 块 角 
处 如 图 7. 10 Bras, FLAP RAs x eon ee Xk [D20], 




















图 7.10 OBMC AHA [D20] 


每 一 宏 块 可 被 分 成 多 个 预测 单元 ， 或 者 包括 16 个 单独 的 块 ， 或 者 叫 作 亚 宏 块 
的 4 个 中 等 大 小 的 典 的 阵列 ， 或 者 一 个 宏 其 大 小 的 单个 块 〈 见 图 7. 11) 。 





MB_SPLIT=0 MB_SPLIT=1 MB_SPLIT=2 


图 7.11 Dirac 宏 块 分 裂 为 子 块 的 模式 (2006 IEEE) 


OBMC 参数 可 能 会 随 着 帧 而 改变 ,但 也 存在 基于 帧 大 小 的 默认 值 。 对 于 垂直 和 
水 平方 向 〈 维 数 对 于 不 同 分 辨 座 的 色 度 分 量 要 进行 适当 的 缩放 ) 有 8 “MARRS 
的 12 x12 的 块 ， 存 在 成 流 (原文 streaming 一 一 译 者 注 ) 和 标清 分 辩 率 的 默认 值 。 
所 用 的 OBMC 重 共 水 数 是 一 个 上 则 余弦 肾 数 (原文 : raised- cosine function 译 者 
注 ) 的 近似 [D3]. 

Dirac 也 提供 亚 像素 运动 矢量 的 运动 补偿 ， 因 此 允许 预测 率 可 达 1/8 像素 的 精 
度 。 然 而 ， 所 用 的 实际 运动 矢量 精度 可 能 较 低 ， 取 决 于 最 佳 的 平衡 点 ， 它 基本 上 由 
所 选 的 比特 率 来 定 。 也 支持 一 些 技术 诸如 只 用 运动 信息 预测 一 帧 ， 和 低 比 特 率 下 预 
测 一 幅 几 乎 每 同 于 前 一 帧 的 帧 的 技术 。 


7.3.6 解码 器 


解码 过 程 分 三 个 阶段 执行 ， 如 图 7. 12 所 示 。 在 第 一 阶段 ， 输 入 的 编码 比特 流 
由 箭 解码 技术 进行 解码 。 接 下 来 ， 执 行 缩放 和 逆 量 化。 在 最 后 的 阶段 ， 对 数据 进行 
逆 小 波 变 换 以 产生 解码 的 、 无 压缩 的 视频 输出 。 在 视频 质量 和 运动 天 量 比特 率 之 间 
也 需要 均衡 考虑 | D5 | 。 


编码 输入 道 小 波 变换 | Rai 


图 7. 12 Dirac 的 解码 阶段 [D15 | 


























Dirac 参考 软件 完全 用 C ++ 编程 语言 实现 ，C ++ 允许 在 所 有 公共 操作 系统 上 
进行 面向 对 象 的 开发 。C ++ 代码 编译 后 产生 公有 哨 数 、 运 动 售 计 、 编 色 和 详 人 码 的 
库 ， 这 些 库 具 有 接口 允许 从 C 调用 。 可 以 用 C 编写 应 用 程序 员 的 接口 ， 从 而 使 得 
它 能 保持 简单 性 且 能 与 各 种 媒体 播放 器 、 视 频 处 理工 具 和 流 媒体 软件 集成 [D1]。 
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7.4.1 编码 结构 概述 


Dirac 编译 码 器 具有 一 个 面向 对 象 的 编码 结构 。 编 码 器 包括 多 种 实体 (原文 : 
objects 译 者 注 ) 负责 图 像 序列 内 的 特定 “对 象 ” 的 压缩 。 换 言 之 ,序列 、 帧 
和 图 像 分 量 的 压缩 都 定义 成 单独 的 类 。 


7.4.2 编码 的 简明 性 和 相对 速度 


由 于 Dirac 参考 软件 相对 简单 ， 人 们 发 现 它 的 编码 速度 远 远 快 于 H. 264 [ H3, 
H23, H25, H29] JM17. 1 参考 软件 。 两 种 编译 但 需 的 解码 速度 相当 。 

有 相当 多 的 研究 论文 [D2] [D10] [D28] 建议 一 些 技术 来 优化 Dirac AIRS 
fat, teHR—imie sc [ D28 ] ， 通 过 用 精确 配置 的 M- 编码 器 取代 Dirac 算法 中 原始 
的 算术 编码 器 ， 可 以 实现 快 得 多 的 视频 编译 码 。 这 个 新 算术 编码 器 在 高 比特 率 下 速 
度 快 三 倍 ， 甚 至 性 能 超越 了 原始 压缩 性 能 。 

另 一 篇 论文 [D10] 对 Dirac 编译 码 器 建议 了 一 种 基于 质量 因数 优化 的 率 控 制 
算法 。 这 种 方法 利用 现 有 的 恒定 质量 控制 算法 ， 该 算法 取决 于 一 个 给 出 固定 比特 率 
的 叫 作 质量 因数 (QF，Quality Factor) 的 参数 。 

在 Dirac， 总 的 均衡 因数 从 QF 得 出 ， 意 思 是 质量 或 量化 因数 。QF 不 是 一 种 质 
量 的 直接 度量 。 用 固定 的 QF 编码 会 保证 只 在 同 源 的 图 像 材 料 具有 固定 的 质量 ， 其 
中 ， 失 真 和 比特 率 之 间 的 均衡 是 固定 的 [D11 ] 。 

RURA (原文 lambda 一 一 译 者 注 ) 值 用 于 量化 和 运动 估计 的 率 失真 控制 : 它 
们 最 初 从 图 像 QF 中 获得 ,或 者 设置 在 命令 行 上 并 用 于 所 有 的 图 像 ， 或 者 通过 率 失 
真 控制 算法 来 确定 。 然 而 ， 一些 因数 被 用 于 在 运动 估计 之 后 修改 入 值 [D11]. 

A 值 的 初始 化 如 下 : [D11] 






































Lambda = r x 1000785025 
LI lambda = 32 x ieee (7. 3 ) 


L2 ambda 三 250 X Lambda 
这 些 A 变量 用 于 在 I、Ll 和 L2 图像 中 的 量化 器 选择 (图 7.9)。 从 这 些 参数 中 
再 得 出 运动 估计 的 人。 理想 的 均衡 点 会 随 着 不 同 的 序列 、 视 频 分 辨 率 、 感 知 权 重 或 
块 大 小 而 改变 [D11 | 





Ll imba =2.0 x VLl,pas (7.4) 
| Den =L1 lambda 
对 于 I、L1 和 12 帧 的 指导 原则 如 下 : [D11] 
1) 工 帆 应 该 比 L1 帧 质量 高 且 L2 帧 应 该 比 LI 质量 高 。 
2) 运动 数据 和 良好 的 运动 显示 在 较 低 比特 率 CR QF) 下 比较 高 比特 率 (高 QF) 
下 更 为 显著 。 
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出 现 第 一 个 原则 是 因为 工 帆 用 作 Ll 和 L2 帧 的 参考 帧 ; Ll 帧 用 作 L2 的 参考 
wW, WREE I EFA LI 或 从 LI 上 升 到 L2, 那么 编码 融会 需要 纠正 参考 帧 的 
量化 误差 并 由 运动 补偿 “ 回 前 推送 ”。 这 个 误差 像 噪声 且 编 码 代 价 高 。 还 有 ， 当 那 
个 帧 的 质量 通过 运动 补偿 改变 的 时 候 ， 人 参考 帧 中 单个 系数 的 误差 可 能 扩散 到 多 个 系 
数 。 因 此 ，L1l 和 12 AY A 相 乘 。 第 二 条 原则 的 目的 是 以 防止 质量 发 生 断 上 岩 式 下 降 ， 
因为 当 QF 下 降 时 ，A 上 升 。 运 动 场 在 低 比 特 率 时 并 非 过 度 平滑 。 即 使 质量 较 低 ， 
也 没有 纠正 很 差 的 区 域 。L2 帧 在 残 差 编码 时 纠正 运动 估计 误差 的 机 会 更 少 
[ D11], 

ARTAR A BI W Si FS AO EE ER Se — A y E R- Joie ee CC R- QF, Rate- 
Quality Factor) 的 数学 模型 来 生成 当前 编码 帧 的 最 优 QF 以 满足 目标 比特 率 要 求 。 

在 另 一 个 研究 项 目 中 广泛 讨论 了 不 同 的 编码 融 优化 方法 ， 例 如 多 线程 、 单 指令 
多 数据 流 (SIMD ，Single Instruction Multiple Data) 扩展 指令 集 (SSE，Streaming 
SIMD Extensions) | D32] 和 用 Visual Studio 附加 程序 的 英特尔 公司 的 C/C ++ 编译 
AWE TF o 











7.5 结果 


目标 测试 方法 努力 确定 参考 帧 和 编码 比特 流 之 间 的 误差 量 [ D5] 。 为 了 保证 测 
试 的 精确 性 ， 需 要 保持 一 个 兼容 的 测试 平台 。 这 会 需要 两 个 编译 码 需 在 同一 比特 率 
下 进行 测试 [D5] [D10], 

因为 Dirac 的 最 新 版 本 包括 了 一 种 固定 比特 率 (CBR, Constant Bit Rate) 模 
IN, BBA Dirac 和 H. 264/MPEG-4 第 10 部 分 的 性 能 比较 通过 在 不 同 的 比特 率 下 编 
码 若 干 测试 序列 来 产生 。 通 过 利用 H. 264 的 CBR 模式 ， 我 们 可 以 保证 H. 264 正在 
以 与 Dirac 同样 的 比特 率 进 行 编码 [D10]. 

目标 测试 分 为 三 个 部 分 ， 也 就 是 说 电压 缩 ， 忆 结构 相似 度 指 标 (SSIM) 和 
@ 峰 值 信 噪 比 PSNR。 测 试 序列 “Miss- America” QCIF (176 x144) [V3], “Stefan” 
CIF (352 x288) [V3] 和 “Susie” 标 清 (720 x480) [V4] 用 于 性 能 评价 。 这 两 
种 方法 在 压缩 、PSNR 和 SSIM 方面 是 非常 接近 且 具 有 可 比 性 的 。 另 外 ， 针 对 所 有 
的 测试 视频 与 H. 264 相 比 ， 由 Dirac 实现 的 编码 时 间 有 明显 的 提高 。 


7.5.1 压缩 比 测试 


通过 得 到 . dre 和 . 264 文件 的 大 小 ， 再 与 原始 序列 文件 的 大 小 进行 比较 ， 就 
分 别 得 出 了 Dirac 和 H. 264 的 压缩 比 。 
利用 CBR 模式 ， 有 可 能 对 两 个 编译 码 顺 都 设置 一 个 “目标 比特 率 ”， 对 Dirac 
这 比 质量 也 就 是 说 QF 还 重要 。 这 能 确保 两 种 编译 码 器 用 在 相同 的 工作 环境 
在 这 些 测 试 中 QF 用 比特 率 (kbit/s) 指标 代替 。 








而 言 
FB 
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图 7.13 ~ 图 7.15 分 别 给 出 了 Dirac 和 H. 264 在 对 QCIF, CIF 和 SDTV 序列 进 
行 压缩 的 性 能 比较 。Ravi [D14] 以 及 Rav 和 Rao [D15] 已 经 进行 了 这 样 一 个 
对 比 。 





CBR 下 的 压缩 比 -比特 率 (QCIF) 关系 曲线 





10 20 40 80 100 160 200 
比特 率 /(kbit/s) 


图 7.13 针对 QCIF 序列 “Miss- America” 的 Dirac 和 H. 264 的 压缩 比 对 比 [D15] 


CBR 下 的 压缩 比 -比特 率 (CIF) 关系 曲线 





10 20 40 80 100 160 200 
比特 率 /(kbit/s) 


图 7.14 针对 CIF 序列 “Stefan” 的 Dirac 和 H. 264 的 压缩 比 对 比 [D15] 


CBR 下 的 压缩 比 -比特 率 (标清 电视 ) 关系 曲线 


压缩 比 





10 20 40 80 100 160 200 
比特 率 /(kbit/s) 


图 7.15 针对 标清 电视 序列 “Susie” 的 Dirac 和 H. 264 的 压缩 比 对 比 [D15] 
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针对 QCIF 序列 的 情况 ，Dirac 在 较 低 比特 率 下 实现 了 比 H. 264 略 高 的 压缩 比 。 
在 较 高 比特 率 下 ，Dirac 和 H. 264 两 者 都 实现 了 类 似 的 压缩 比 [D14] 。 

对 于 CIF 和 标清 视频 ，H. 264 在 较 低 比特 率 下 给 出 略 好 的 压缩 效果 。 在 较 高 比 
REKT, Dirac 和 H. 264 两 者 都 能 实现 类 似 的 压缩 效果 。 


7.5.2 SSIM 测试 


结构 相似 度 指标 (SSIM) [Q13] 借助 于 比较 亮度 和 对 比 度 已 被 标准 化 的 像素 
亮度 的 局 部 网 案 进行 工作 [Q13 ] 。 从 根本 上 说 ，SSIM 的 计算 基于 亮度 相似 度 、 对 
比 度 相似 度 和 结构 相似 度 组 合成 为 的 一 个 值 。SSIM 的 最 大 可 能 值 是 1， 这 种 情况 
表明 编码 的 序列 就 是 参考 序列 的 一 个 精确 复制 品 。SSIM 也 是 客观 评价 视频 质量 的 
另 一 种 方法 [D5 ] 。H. 264 能 实现 比 Dirac 稍 好 一 点 的 SSIM， 如 图 7.16 ~ 图 7.18 
所 示 。 





CBR 下 SSIM 一 比特 率 关 系 曲线 (QCIF) 


1.000 


0.990 


0.980 


SSIM 


0.970 





0.960 +++ ++" + =e Dirac 
=a H 264 


0.950 


10 20 40 80 100 160 200 
比特 率 /(kbit/s) 


图 7.16 针对 QCIF 序列 “Miss- America” Dirac 和 H. 264 的 SSIM 对 比 [D15] 


CBR 下 SSIM 一 比特 率 关系 曲线 (CIF) 


SSIM 


=== Dirac 
=f 1H .264 





10 20 40 80 100 160 200 
比特 率 /(kbit/s) 


图 7.17 针对 CIF 序列 “Stefan”Dirac 和 H.264 AY SSIM 对 比 [D15] 
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, 000 CBRTSSIM 一 比特 率 关系 曲线 (标清 电视 ) 


0.990 
0.980 
0.970 
0.960 
0.950 
0.940 
0.930 
0.920 
0.910 
0.900 


SSIM 





10 20 #40 80 100 160 200 
比特 率 /(kbit/s) 


图 7.18 针对 标清 电视 序列 “Susie”Dirac 和 H. 264 AY SSIM 对 比 [D15] 


7.5.3 PSNR 测试 


H. 264 能 实现 比 Dirac 高 得 多 的 PSNR (KA 3 ~4dB), WA 7.19 ~ Al 7.21 
所 示 。 


CBR 下 PSNR 一 比特 率 关 系 曲 线 (QCIF) 


PSNR/dB 





10 20 40 80 100 160 200 
比特 率 /(kbit/s) 


图 7.19 针对 QCIF 序列 “Miss- America” Dirac 和 H.264 AY PSNR 对 比 [D15] 


CBR 下 PSNR 一 比特 率 关系 曲线 (CIF) 


PSNR/dB 





比特 率 /(kbit/s) 


图 7.20 针对 CIF 序列 “Stefan” Dirac 和 H. 264 的 PSNR 对 比 [D15] 





PSNR/dB 





10 20 40 80 100 160 200 
比特 率 /(kbit/s) 


图 7.21 针对 标清 电视 序列 “Susie”Dirac 和 H. 264 的 PSNR 对 比 [D15] 


表 7.1~ 表 7.3 以 及 图 7.22 ~ 图 7.24 分 别 给 出 了 Dirac 和 H. 264/MPEG-4 第 
10 部 分 在 10KB/s 到 200KB/s 的 固定 比特 率 (CBR) 上 针对 QCIF, CIF 和 标清 序 
列 的 性 能 比较 。 
表 7.1 针对 QCIF 序列 在 CBR 下 Dirac 和 H. 264 的 性 能 比较 








Dirac H. 264 
大 小 * PSNR 大 小 * PSNR 
CBR (KB/s) 压缩 比 SSIM 压缩 比 SSIM 
(KB) 分 贝 值 CY) (KB) 分 贝 值 (Y) 
10 59 95 38. 913 0. 966 63 90 44. 162 0. 983 
20 120 46 42.911 0. 981 123 45 45. 729 0. 987 
40 247 23 44. 648 0. 986 243 23 47. 257 0. 989 
80 477 12 46. 180 0. 988 481 12 49. 054 0. 992 
100 594 9 46. 640 0. 989 601 9 49. 826 0. 993 
160 949 6 47.717 0. 991 911 6 52. 077 0. 995 
200 1186 5 48. 420 0. 992 912 6 52. 077 








* 表示 压缩 后 所 有 150 帧 的 编码 文件 大 小 。 











表 7.2 针对 CIF 序列 在 CBR 下 Dirac 和 H. 264 的 性 能 比较 








Dirac H. 264 
CBR (KB/s) alls 压缩 比 ae SSIM ail 压缩 比 J SSIM 
( KB) 分 贝 值 CY) (KB) UU (Y) 
10 146 92 27. 468 0. 896 142 94 31.617 0. 955 
20 185 47 31.613 0.951 282 48 34. 650 0. 974 
40 559 24 35. 296 0. 975 559 24 38. 055 0. 984 
80 1，114 12 39. 012 0.986 | 1, 112 12 42. 134 0. 991 
100 1, 386 10 40. 343 0.998 | 1, 389 10 43. 134 0. 992 
160 2, 216 6 43. 273 0.992 | 2, 199 6 46. 840 0. 995 
200 2, 757 5 44. 684 0.994 | 2, 731 5 48. 729 0. 997 








* 表示 压缩 后 所 有 90 帧 的 编码 文件 大 小 。 
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表 7.3 针对 标清 序列 在 CBR 下 Dirac 和 H. 264 的 性 能 比较 [D15] 
Dirac H. 264 
CBR (KB/s) cs 压缩 比 a SSIM a 压缩 比 or SSIM 
(KB) ay UME (Y) (KB) 分 贝 值 (Y) 
10 180 94 39. 055 0. 937 178 95 41. 028 0. 958 
20 388 44 41. 729 0. 960 361 47 41. 530 0. 962 
40 751 22 43.22 0. 970 701 24 44. 814 0. 976 
80 1, 470 11 44. 276 0.976 | 1, 405 12 45. 871 0. 981 
100 1, 822 9 44. 676 0.978 | 1, 694 10 47. 491 0. 986 
160 2, 849 6 45. 589 0.983 | 2, 562 7 50. 016 0. 991 
200 3, 539 5 45. 988 0.985 | 2, 953 6 50. 819 0. 993 


“表示 压缩 后 所 有 25 帧 的 编码 文件 大 小 。 

















图 7.22 在 CBR =10KB/s 时 ，Dirac #l H. 264 的 比较 ，QCIF 序列 [D15] 








a) Dirac 输出 序列 ，CBR =10KB/s PSNR: 38.913dB， 比 特 率 . 9.955KB/s [D25] 
b) H. 264 输出 序列 ，CBR =10KB/s PSNR: 44. 162dB， 比 特 率 . 10. 603KB/s 





图 7.23 CBR =100KB/s 时 Dirac 和 H. 264 的 比较 ，CIF 
a) Dirac 输出 序列 ，CBR =100KB/s PSNR: 40. 343dB， 比 特 率 . 101.331KB/s [D15] 
b) H. 264 输出 序列 ，CBR =100KB/s PSNR: 44. 162dB， 比 特 率 , 101. 546KB/s 








图 7.24 CBR =100KB/s 时 Dirac 和 H. 264 的 比较 ， 标 清 电 视 [ D151] 
a) Dirac 输出 序列 ，CBR =100KB/s PSNR: 44. 676dB, ， 比 特 率 : 103. 606KB/s [D15] 
b) H. 264 输出 序列 ，CBR =100KB/s PSNR: 47. 491dB， 比 特 率 ,96. 324KB/s [D15] 





总 体 来 看 ，Dirac 4a 7605 ah xe JE A A BE, FEAR BBC 研发 部 门 [D1] 
[D25 ] ， 开 发 Dirac 着 眼 于 优化 特别 是 压缩 比 和 视觉 质量 方面 的 性 能 。 它 的 简单 性 
提供 了 非常 有 益 的 稳健 性 和 压缩 的 快速 性 ， 因 而 Dirac 在 很 大 程度 上 已 经 实现 了 它 
的 目标 [D5 ]。 

Dirac 是 一 种 没有 充分 发 展 的 编译 人 码 器 ， 但 这 样 一 种 早期 的 参考 编译 码 莫 能 
Æ H. 264 可 比 的 良好 结果 ， 这 是 值得 称 扬 的 。SSIM RH, H. 264 在 质量 方面 具 
有 了 略 高 的 改善 。 编 译 码 器 的 选择 会 取决 于 终端 用 户 的 应 用 ， 而 应 用 会 决定 许可 费 的 
巨大 代价 是 否 抵 得 上 质量 的 改善 (如 图 H. 264/MPEG-4 第 10 部 分 的 情况 ) [D5]. 
在 低 比特 率 下 ，Dirac 和 H. 264 两 者 都 保持 接近 固定 的 质量 ， 这 对 于 某 些 应 用 如 流 
视频 是 有 益 的 。 
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综 上 所 述 ，Dirac 是 一 种 及 其 简单 却 稳健 的 编译 码 血 ， 并 具有 潜力 实现 非常 接 
近 于 H. 264 的 压缩 效果 ， 它 的 复杂 上 度 低 且 无 需 使 用 许可 费用 。 然 而 ， 与 这 些 编译 


码 器 的 实现 相 比 ，H. 264 肯定 是 获胜 了 。 
7.7 未 来 的 研究 


Dirac 编译 码 需 的 实现 瞄准 从 网 络 视频 到 超 高 清 视频 的 高 质量 视频 压缩 。 然 而 ， 
该 标准 仅仅 定义 了 一 个 视频 编译 码 咒 而 没有 提 到 任何 有 关 音 频 压 缩 的 问题 。 因 此 ， 
为 了 给 终端 用 户 提 供 有 意义 的 视频 传送 ， 有 必要 将 一 个 音频 流 与 视频 相关 联 在 
一 起 。 

通过 集成 音频 编译 码 器 诸如 MPEG 第 2 JE (MP2) [034] 或 者 AAC [016], 
Dirac 视频 编译 码 器 可 被 进一步 改善 。MP2 是 免 使 用 许可 费 的 ， 可 用 于 高 质量 音频 
且 在 较 高 比特 率 下 具有 类 似 于 MP3 的 性 能 [035], BBC 的 Dirac 研究 组 还 建议 
Vorbis [ 037] 音频 编译 码 锅 和 Xiph. Org 基金 会 的 开发 FLAC (免费 的 无 损 音频 编 
译 码 需 ) [036] 作为 高 质量 音频 格式 ， 这 些 格式 可 在 适用 于 Dirac 视频 编译 码 需 
的 使 用 许可 免费 条 款 下 获得 。Urs 已 经 用 AAC 音频 实现 了 这 一 建议 [D16 ] 。 
因此 ， 通 过 复 用 视频 和 音频 编码 的 传输 比特 流 然后 在 接收 端 解 复 用 这 些 流 ， 有 
实现 信号 的 传输 。 在 此 之 后 ， 可 以 在 回放 期 间 对 音频 和 视频 实现 同步 化 以 便于 
适用 于 各 种 应 用 。 





























可 能 
‘ERE 
7. 8 总 结 


Dirac 不 同 于 其 他 编译 码 器 (AVS China, H.264/AVC, HEVC, VC-1 etc) 的 
地 方 在 于 它 基于 小 波 变换 而 不 是 DCT/ 整 数 DCT。 本 章 描述 了 其 编码 器 ， 然 后 是 与 
H. 264/AVC (364 8) 的 对 比 。 最 后 一 章 (第 8 章 ) 描述 了 VC-1 视频 编码 ( 基 
于 微软 的 Windows Media Video 9， 被 SMPTE 采用 )。 我 们 可 以 看 到 AVS China, 
H. 264/AVC 和 VC-1 之 间 的 相似 性 。SMPTE 已 经 采用 Dirac 的 帧 内 编码 ， 就 像 VC-2 
一 样 。 








7.9 ”专题 研究 


P.7.1 Ravi [D14] 针对 QCIF, CIF 和 标清 电视 序列 实现 了 Dirac 并 且 与 H. 264 
[H23, H3, H29, H25, H13, H31, H20] 进行 了 对 比 。 参 见 图 7. 13 ~ 
图 7.15 (压缩 比 与 比特 率 的 关系 )。 请 用 Dirac [D21] [D20] 和 JM 
[H30] 软件 对 这 些 视频 实现 这 些 比 较 。 还 要 进行 其 他 比较 ， 包 括 SSIM 与 
比特 率 的 关系 ( 见 图 7.16 ~ 图 7.18) 和 PSNR 与 比特 率 的 关系 (图 7.19 ~ 
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Pi 7.2 


P.7.3 
P. 7.4 


P.7.5 
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图 7.21) 。 再 把 这 些 比较 推广 到 SSM 的 情况 [Q13]。 

Urs [D16] 已 经 实现 了 对 Dirac 视频 和 AAC 音频 的 编码 和 解码 ， 同 时 保证 
了 层 同 步 (原文 : lip sync 一 一 详 者 注 ) 。 请 用 不 同 的 视频 序列 实现 它 。 
fern: 要 访问 Ravi [ D14] 和 Urs [ D16] 的 毕业 论文 ， 请 到 www- 
ee. uta. edu/dip, it courses， 然 后 点 击 EES359, [el PIR OFFA GS 
KR.: list of theses/ projects , 毕业 论文 、 专 题 、 议 案 、 ppt 等 可 以 下 载 。 

用 Vorbis [037] 音频 代替 AAC 音频 并 重复 P. 7. 2。 

用 FLAC (免费 且 无 损 的 音频 编译 码 器 ) [036] RÆ AAC 音频 并 重 
复 P72, 

Dirac Pro [D23] 在 Dirac 内 仅仅 基于 帧 内 编码 。SMPTE 采纳 它 作 为 VC-2。 
Shreyanka Subbararyappa 已 经 实现 了 这 个 专题 , “Comparative study of H. 264 
intra frame coding, JPEG, JPEG-LS, JPEG 2000 and JPEG XR”。 该 专题 的 
议案 /报告 以 及 它们 的 ppt 都 可 以 获取 到 。Radhika Veerla 实现 了 类 似 的 专 
题 ， 题 名 为 “Advanced image coding”。 请 实现 这 两 个 专题 并 与 Dirac Pro 就 
若干 测试 序列 (QCIF, CIF, SDTV, HDTV 格式 ) 在 各 种 比特 率 下 进行 对 
比 。 议 案 、 报 告 和 ppt 可 供 访 问 。 

提示 : 为 了 访问 这 两 个 专题 ， 请 参见 P. 7.2。 向 下 滚动 窗口 并 查看 “previ- 
ous projects”, Shreyanka Subbarayappa: Fall 2010, Radhika Veerla: 
Summer 2008. 
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摘要 ， 与 其 他 编译 码 器 一 样 ， 本 章 描述 了 VC-1 编码 器 / 译 码 器 的 细节 。VC-1 
是 一 个 基于 微软 开发 的 WMV9 的 SMPTE 标准 。 本 章 还 概述 了 H. 264/AVC 到 VC-1 
的 转 码 器 。SMPTE 只 采纳 了 Dirac (第 7 章 ) 的 帧 内 编码 作为 VC-2。 

关键 词 : VC-1 SMPTE 微软 档次 Z 型 模式 BARR HEMAKA 
码 转 码 VC-1 的 传输 VC-2 视频 压缩 H.264 到 VC-1 的 转 码 器 





8.1 VC-1 的 结构 








VC-1 Æ SMPTE 421M [C7] 视频 编译 码 标准 的 正式 名 称 ， 它 最 初 是 由 微软 公 
司 开发 的 , H SMPTE 于 2006 年 4 月 3 日 发 布 。 现 在 ， 它 是 蓝光 光盘 和 视窗 媒体 视 
频 流 格式 9 (WMV9, Windows Media Video 9) 的 支持 标准 。VC-1 是 传统 上 基于 
DCT 的 视频 编译 码 需 设计 方案 的 一 种 演化 ， 这 种 设计 在 H. 261 [S4]，H. 263 
[S6], MPEG-1 [S2], MPEG-2 [S3] #1 MPEG-4 [S10] 也 能 发 现 。 它 被 广泛 地 
作为 最 新 的 ITU-T 和 MPEG 视频 编译 码 标准 H. 264/MPEG-4 AVC [S10] 的 替代 
mo VC-1 包括 隔行 视频 序列 的 编码 工具 以 及 渐进 编码 的 工具 。 开 发 和 标准 化 VC-1 
的 主要 目的 是 支持 隔行 内 容 的 压缩 ， 而 不 必 首 先 转换 为 渐进 格式 ， 从 而 使 得 它 对 于 
广播 和 视频 工业 界 的 专业 人 士 更 具 吸 引力 。 

VC-1 编译 码 絮 被 设计 来 实现 最 新 的 压缩 质量 ， 比 特 率 范围 可 以 从 很 低 到 很 
高 。 该 编译 码 器 能 很 容易 地 为 高 清 视频 在 6 ~30Mbit/s 上 处 理 1920 x 1080 像素 的 分 
HERK, VC-1 能 够 处 理 更 高 的 分 辨 率 如 数字 电影 的 2048 x 1536 像素 ， 和 最 大 为 
135 Mbit/s 的 比特 率 。 一 个 甚 低 比特 率 视频 的 例子 是 面向 调制 解 调 需 应 用 的 在 
10kbit/s 上 的 160 x 120 像素 分 辨 率 。VC-1 的 这 个 基本 功能 涉及 一 个 基于 块 的 运动 
补偿 和 空间 变换 方案 ， 类 似 于 用 在 其 他 视频 压缩 标准 如 MPEG-1 和 H. 261 的 方案 ， 
如 图 8. 1 所 示 。 然 而 ，VC-1 包括 才干 创新 和 优化 ， 使 得 它 与 基本 的 压缩 方案 有 所 
不 同 ， 从 而 产生 了 卓越 的 质量 和 效率 。VC-1 先进 档次 与 传输 无 关 。 这 一 点 对 于 设 
备 厂 商 和 内 容 业 务 提供 了 更 大 的 灵活 性 。 




















帧 内 编码 帧 路 径 一 一 输出 
帧 间 编码 帧 路 径 


















p 


EE 











帧 内 编码 帧 路 径 
帧 间 编码 帧 路 径 














b) 


图 8.1 a) VC-1 编码 器 框图 。b) VC-1 解码 器 框图 [C2] (2004 Elsevier) 
8.2 ”整数 变换 编码 
8.2.1 ŽE 


VC-1 使 用 整数 编码 将 样 值 块 转化 到 变换 域 ， 这 样 可 以 避免 逆 变 换 失 配 问 题 。 
整数 变换 是 离散 余弦 变换 (DCT, Discrete Cosine Transform) 的 一 种 变 体 ，DCT 已 
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被 很 多 国际 视频 编码 标准 广泛 采纳 。VC-1 和 其 他 编译 码 器 的 主要 区 别 是 它 基 于 可 

变 大 小 的 变换 进行 工作 。 变 换 块 大 小 可 以 是 8 x8 或 者 三 种 亚 块 大 小 (8 x4, 4x8, 

4x4) 的 任何 一 个 ， 取 决 于 块 的 特性 。 假 定 所 有 的 变换 方法 都 能 适应 块 特性 从 而 

最 小 化 变换 误差 。 方程 (8.1) 和 方程 (8.2) 分 别 给 出 8 x8 和 4 x4 的 逆 变 换 。 
12 2 2 B2 2 B B B 


16 15 9 4 -4 -9 -15 -16 
16 6 -6 -16 -16 -6 6 16 

15 -4 -16 -9 9 16 4 -15 

T, = (8.1) 

i = 210 0 i -p -0 p 

9 -16 4 15 -15 -4 16 -9 

6 -16 16 -6 -6 16 -16 6 

4 -9 15 -16 16 -15 9 -4 


2 10 =10 =2 
T, = (8.2) 
i7 =17 =17 17 
10 =22 22 =10 
对 于 帧 内 编码 的 宏 块 总 是 使 用 8 x 8 变换 ， 而 对 于 帧 间 编 码 的 宏 块 ， 每 个 8 x8 
块 可 能 用 一 个 8 x8， 两 个 4x8， 两 个 8 x4, 或 四 个 4 x4 进行 变换 。 块 大 小 可 变 的 
变换 可 在 序列 级 、 帧 级 、 安 块 级 、 或 块 级 上 给 出 指示 信息 。 
道 变 换 过 程 的 第 一 步 是 计算 直接 数据 块 By yo 
Ev = (Ds) SS (8.3) 
NPF, Dy, yeh A ER ER; Ty, 是 整数 DCT 和 矩阵; 分 别 如 式 (8.1) 和 
IN (8.2) 所 示 。 操 作 符 “ > ”表示 在 矩阵 上 执行 逐 项 的 算术 右 移 。 变 换 大 小 参数 
是 4 或 8,， 即 M， Ve14,，8}。 这 样 ， 在 VC-1 中 就 有 可 能 存在 8 x8, 4x8, 8x4 和 
4 x4 的 变换 。 逆 量化 后 的 变换 系数 值 不 会 超过 带 符号 12bit 的 值 范围 ( 即 -2048 < 
Eyww 的 元 素 夺 2047)， 而 直接 矩阵 Bj 的 值 范 围 是 13- 比特 (EI -4096 <E yuh 
Z <4095) 。 
第 二 步 是 计算 逆 变 换 数 据 块 Rj、、 
Roey = (Ty s+ Gly t64) >7 (8.4) 
RP, C,=(0000)'MIC,=(00001111)'. 1, 定义 为 一 个 长 度 为 M 元 素 为 1 
的 行 向 量 。 首 变换 值 的 范围 在 10bit 以 内 (Bl -512 SE,,, yc S511), 


8.2.2 前 向 变换 


因为 前 向 变换 没有 考虑 进行 快速 实现 ， 故 它 可 以 缩放 的 整数 算法 或 用 浮 点 或 其 
他 表示 来 实现 。 实 现 前 加 变换 的 矩阵 乘法 表示 纯粹 是 一 种 解析 表示 。 四 种 不 同 块 大 
小 (4x4, 8x4, 4x8 和 8x8) 的 前 向 变换 系数 可 以 如 下 计算 
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Ds = (T, D T,) ON gx 
Des = (T; D T,) oNs xa 
Dig Ty DT oN 


Dg PDT GN ssa (8.5) 
式 中 ， 操 作 符 o 是 一 种 逐 分 量 乘法 ， 标 准 化 矩阵 和 Vj, 的 元 素 由 以 下 给 出 : 
Ni = cci (8.6) 


TERS, i 和 j 表示 标准 化 矩阵 的 行 和 列 写 ， 列 癌 量 c 是 





a- 8 8 a 
4 (289 292 289 292 
8 8 8 8 8 8 8 8y 
aSa 289 292 289 288 289 292 an 
ERA Tl A ea HE EAS A, VC-1 定义 的 变换 仅仅 是 正 交 的 ， 而 不 是 
标准 正 交 的 。 因 此 有 关 正 交 变 换 的 传统 论述 不 能 成 立 。 
1. Z 型 扫描 
将 样 值 数 据 变 换 到 频 域 之 后 ， 变 换 系 数 以 Z 字形 样式 进行 重新 排序 以 使 后 续 
的 编码 方法 更 为 有 效 。VC-1 有 13 中 不 同 的 Z 字形 扫描 样式 ， 取 决 于 不 同 的 编码 参 
BX, TAMURA), ITEE, TUE A A a Ho a] BK 
有 三 种 不 同 的 Z 字形 扫描 样 式 用 于 帧 内 块 ， 如 图 8.2 所 示 : 帧 内 普通 扫描 、 帧 
内 水 平 扫 描 、 和 帧 内 垂直 扫描 。 对 于 帧 间 编 码 块 ， 定 义 了 四 种 取决 于 块 大 小 的 不 同 
的 扫描 样式 ， 如 图 8.3 所 示 : 帧 间 8 x8 fase, Wile] 8 x4 扫描 、 帧 间 4 x8、 和 帧 间 
4 x4 扫描 。 还 定义 了 其 他 六 种 不 同 的 扫描 样式 渐进 8 x4 扫描 、 渐 进 4 x8 扫描 、 
隔行 8 x 8 扫描 、 隔 行 8 x4 扫描 、 隔 行 4 x8 ath, AAT 4 x4 扫描。 





(8.7) 











a) 





图 8.2 VC-1 PA Z Bat 
a) 标准 的 b) 水 平 的 c) 垂直 的 [B14] (2008 Springer) 


2. 量化 
tte — PS SA ER, CEPR EMR ATA EAS ARAN 
息 。 有 两 种 量化 方法 ， 取 决 于 量化 步 长 的 大 小 : 均匀 和 非 均 匀 。 量 化 过 程 基 于 某 种 
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图 8.3 VC-1 帧 间 编 码 的 Z 字形 扫描 (2008 Springer) 





准则 诸如 量化 器 失真 最 小 化 ， 用 数量 有 限 的 级 表示 数据 。 由 于 输出 值 表 示 了 步 长 间 
隅 范围 里 的 很 多 输入 值 ， 所 以 量化 是 一 个 固有 的 有 损 过 程 。 均 匀 量 化 需 意 味 痢 输入 
和 输出 步 长 是 均匀 分 布 的 ， 而 非 均 匀 量 化 需 则 包含 了 不 均匀 的 分 布 。 

VC-1 编码 需 将 整个 帧 的 量化 需 等 级 指数 (Sbit 的 PQINDEX) X PEI AE o 
它 在 所 有 类 型 的 帧 都 存在 。 实 际 的 量化 需 等 级 (PQUANT) 以 均匀 或 非 均 匀 的 方式 
从 POINDEX 转化 得 到 。 宏 块 量化 器 (MQUANT) 可 基于 宏 块 进行 修改 。 那 些 位 于 
帧 边缘 的 宏 块 以 另 一 个 量化 步 长 ( ALTPQUANT) 来 量化 ， 而 其 他 所 有 的 宏 块 以 
PQUANT 进行 量化 。 每 个 单一 的 宏 块 可 能 会 以 不 同方 式 进行 量化 。 在 此 情况 下 ， 就 
会 指出 每 个 宏 块 是 否 可 以 从 两 个 量化 步骤 (PQUANT 或 ALTPQUANT) 中 选 出 ， 或 
者 是 否 每 个 宏 块 可 以 用 任何 步 长 进行 任意 的 量化 。 


8.3 运动 估计 /补偿 


运动 估计 (ME) 是 视频 编码 中 计算 强度 最 大 的 部 分 ， 因 为 它 试图 逐 像 系 或 逐 
块 地 在 参考 帧 中 找到 与 当前 帧 内 块 的 匹配 块 。 视 频 的 运动 补偿 (MC) 通过 从 当前 
块 减 去 匹配 块 (由 运动 矢量 指明 ) 得 以 实现 。 块 匹配 得 越 近 ， 两 个 块 之 间 的 差别 
就 越 小 。 

为 了 运动 估计 ， 一 个 16 x 16 的 亮度 安 块 可 被 分 成 四 个 8 x8 WFR, M7 m K 
域内 的 (如 物体 边界 上 的 ) 纹理 运动 不 够 均匀 时 ，8 x8 子 块 的 运动 补偿 相当 有 效 。 

















例如 ， 当 一 个 宏 块 落 入 背景 时 ， 物 体 边界 宏 块 的 四 个 8 x 8 块 之 一 可 能 以 不 同 的 方 
向 移动 ， 而 另外 三 块 则 处 于 前 景 中 。 在 此 情况 下 ， 运 动 是 不 均匀 的 ， 较 小 区 域 的 运 
动 补偿 能 提高 更 好 的 压缩 性 能 。 这 一 策略 已 被 以 前 的 标准 如 MPEG-4 第 2 部 分 所 采 
纳 [S9], VC-1 回 前 更 进一步 。 安 块 里 的 任 一 个 8 x8 块 都 可 以 帧 内 模式 编码 ， 而 
其 他 块 以 帧 间 / 运 动 补偿 模式 进行 编码 。 

VC-1 使 用 半 像 素 和 四 分 之 一 像素 的 帧 间 运 动 补偿 ， 伴 随 着 或 者 是 双 线 性 CR 
H. 264 那样 ) 或 双 三 次 内 捕 。 更 多 细节 在 8.4.6 市 中 解释 。VC-1 提出 如 下 四 种 
MC 方法 : 

1) 16 x16 块 - 单 运动 矢量 - 半 像 素 - 双 线 性 ; 

2) 16 x16 块 - 单 运动 天 量 - 半 像 素 - 双 三 次 ; 

3) 16 x16 块 - 单 运动 矢量 - 1/4 像素 - 双 三 次 ; 

4) 8x8 块 -四 运动 矢量 - 1/4 像素 - 双 三 次 。 

注意 ， 安 排 的 顺序 是 复杂 度 和 质量 递增 的 顺序 。 任 何 MC 方法 的 选择 取决 于 应 用 
场合 。 例 如 ， 移 动手 持 设备 计算 能 力 较 低 ， 那 么 就 不 需要 高 图 像 质量 的 视频 。 在 此 情 
况 下 ，16 x16 块 - 单 运 动 撩 量 - 半 像 素 - 双 线性 内 插 的 MC 对 于 编码 顺 就 是 一 个 好 的 选 
择 。 然 而 ， 对 于 高 清 DVD ， 就 需要 8 x8 块 - 四 运动 矢量 - 1/4 像素 - 双 三 次 内 搬 的 MC 
来 实现 续 越 的 视频 质量 。 在 需要 1/4 分 辨 率 的 时 候 ， 半 像素 内 插 是 一 个 中 间 过 程 。 


8.3.1 环 路 滤波 器 


粗糙 的 量化 会 引起 块 边界 处 的 不 连续 ， 产 生 可 见 的 块 效 应 。 不 精确 的 运动 补偿 
也 会 引起 块 边界 处 可 见 的 瑕 辛 ， 叫 作 “ 飞 蚊 ” 效 应 。 为 了 消除 这 些 影响 采纳 了 去 
块 效 应 滤波 器 ， 用 在 重建 帧 作为 后 续 帧 的 参考 帧 之 前 。 编 码 器 和 解码 需 必 须 执行 相 
同 的 滤波 操作 。 

VC-1 有 两 种 消除 这 些 效应 的 方法 一 一 重合 变换 (OLT, Overlapped Transform ) 
AIP PAVE at (ILF, In-loop Filtering) [V1], OLT 通过 平滑 边界 的 不 连续 性 对 于 
涉及 一 个 高 质量 块 和 一 个 低 质 量 块 的 边界 是 有 用 的 ， 而 ILF 通过 增强 图 像 质量 对 于 
那些 涉及 两 个 低 质量 块 或 两 个 高 质量 块 的 边界 是 有 用 的 。OLT 是 一 个 独特 的 方法 ， 
它 基 于 一 对 精确 定义 的 预 / 后 处 理 。 这 个 想法 是 定义 这 样 的 前 向 和 逆 回 操作 并 连续 
执行 的 话 就 能 完美 地 恢复 原始 数据 。 前 癌变 换 跨越 相 邻 块 边界 交换 信息 。 一 般 情况 
下 ， 在 一 个 块 边沿 上 ， 一 个 块 有 相对 好 的 边沿 细节 而 另 一 个 则 不 然 。 解 码 硕 需要 一 
种 逆向 操作 将 边沿 数据 交换 回来 以 降低 块 效应 。 通 过 这 种 方法 ， 高 质量 和 低 质 量 边 
沿 对 互相 扩散 ， 从 而 提高 了 视觉 质量 。 

在 P 帧 的 环 路 滤波 中 ， 一 个 块 及 其 相 邻 块 之 间 的 边界 是 不 滤波 的 ， 如 果 两 个 
块 具 有 相同 的 运动 矢量 且 如 果 两 个 块 都 没有 残 差 。 在 量化 或 运动 补偿 引入 不 连续 性 
不 太 可 能 发 和 后 地 方 ， 这 防止 了 块 边界 的 过 度 平 滑 。 这 一 限制 也 降低 了 P 帧 ILF 过 程 
的 复杂 度 。 围 绕 块 边沿 发 生 突 变 的 时 候 ， 斑 驶 的 图 案 中 高 频 成 分 较 多 。 考 虑 到 原始 
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质量 的 图 像 中 也 可 能 包含 高 频 成 分 ， 这 一 过 程 围 绕 1 和 P 参考 帧 的 块 边沿 使 用 了 一 
个 相对 简单 的 非 线 性 低 通 滤波 般 。 这 样 ， 滤 波 的 结 来 只 会 影响 到 以 滤波 帧 为 参考 的 
那些 后 续 帧 。 


8.3.2 BRE 


VC-1 具有 比 H. 264 更 低 的 计算 复杂 度 ， 见 表 8. 1 所 示 。 比 较 编 码 特征 时 ， 在 

给 定 的 比特 率 下 H. 264 给 出 了 比 VC-1 略 好 的 质量 ， 但 它 也 具有 较 高 的 复杂 度 ， 这 

是 由 于 在 帧 内 预测 、 和 运动 补 偿 、 和 安 块 编码 模式 方面 的 高 度 灵 活性 导致 的 。 例 如 ， 

与 算术 编码 相 比 ， 使 用 VLC 表 不 会 给 出 最 好 的 性 能 ， 但 它 的 复杂 度 也 低 一 些 。 
此 ，VC-1 所 进行 的 选择 代表 了 质量 与 复杂 度 之 间 的 平衡 。 
表 8.1 VC-1 和 H. 264 的 特征 比较 


























特征 VC-1 简单 档次 H. 264 基本 档次 
帧 类 型 I、P I、P 
变换 块 大 小 4x4, 4x8, 8x4, 8x8 4x4 
变换 整数 DCT 整数 DCT 
帧 内 预测 频 域 直 流 和 交流 系数 预测 4x4, 16x16 空域 ，IPCM 
运动 补偿 块 大 小 16x16, 8x8 16x16, 16x8, 8x16, 8x8, 8x4, 4x8, 4x4 
宏 块 模式 总 数 3 7 种 帧 间 模 式 + (9+4) 种 帧 内 模式 8 x4 
运动 矢量 分 辩 率 1/4 像素 1/4 像素 
去 块 效应 环 路 滤波 器 ， 重 释 变 换 环 路 滤波 器 
参考 帧 单 帧 单 帧 、 多 帧 
Wg Zi 自 适 应 VLC CAVLC 


8. 3.3 ”档次 和 级 别 


视频 编译 码 需 定义 了 一 个 工具 和 算法 的 子 集 ， 诸 如 双 预 测 帧 、 起 始 码 、 亮 度 补 
偿 等 ， 以 及 档次 内 的 级 别 ， 它 对 定义 特定 档次 的 参数 又 作 了 约束 。VC-1 定义 了 如 
图 8.4 所 示 的 三 种 档次 : 

1) 简单 档次 (SP, Simple Profile) 服务 于 低 比 特 率 互联 网 流 媒 体 和 低 复 杂 度 
应 用 诸如 移动 通信 或 掌上 电脑 (原文: personal digital assistant 译 者 注 ) 中 的 媒 
体 回 放 。SP 包括 两 个 级 别 一 一 低级 和 中 级 ， 见 表 8. 2。 

2) 主 档次 (MP, Main Profile) 服务 于 高 速率 互联 网 应 用 ， 诸 如 通过 IP 传送 
的 流 视频 /音频 ， 或 者 IP 网 络 上 的 电视 /视频 点 播 。MP 包括 三 个 级 别 一 一 低级 、 中 
级 和 高 级 。 

3) 高 级 档次 (AP, Advance Profile) 服务 于 广播 应 用 ,诸如 数字 电视 、PC E 
放 的 高 清 DVD ， 或 高 清 电视 。 它 是 唯一 文 持 隔行 内 容 的 档次 。 此 外 ， 这 个 档次 包 
含 所 需 的 语法 元 素来 传输 视频 比特 流 。AP 包括 五 个 级 别 一 一 L0 到 A, 























He 8.2 档次 和 级 别 的 限制 
档次 @ 级 别 == MB/s MB/f 例 子 P I Rmax Bmax MV([H] x[V]) 
SP@ LL 1,485 99 QCIF, 176 x144, 15Hz 96 20 [ -64, 6334] x[ -32, 3134] 
SP@ ML 7,200 396 CIF 352 x288, 15Hz 384 77 [ -64, 6334] x[ -32, 31%] 
QVGA, 320 x240, 24Hz n a 
MP@LL 11,880 396 QVGA, 320 x240, 24Hz x 2 ,000 306 a ee 
CIF 352 x288, 30Hz 
[ -512, 51134] x[ -128, 12734] 
MP@ML 40,500 1,620 480p, 720 x480, 30Hz x 10,000 611 
576p, 720 x576, 25Hz 
MP@HL 245,760 8,192 1,080p, 1,920 x1,080, 25Hz x 20,000 2,442 [ -1,024, 1,02334] x[ -256, 25534] 
1,080p, 1,920 x1,080, 30Hz 
AP@IO 11,880 396 CIF, 352 x288, 25Hz, x 2,000 250 [ -128, 12734] 9x[ -64, 6334] 
CIF, 352 x288, 30Hz 
SIF, 352 x240, 30Hz 
AP@LI 48,600 1,620 480i-SD, 704 x480, 30Hz x x 10,000 1,250 [-512, 51134] x[ -128, 12734] 
576i-SD, 720x576, 25Hz 
AP@I2 110,400 3,680 480p, 704 x480, 60Hz x x 20,000 2,500 [ -512, 51134] 9x[ -128, 127%] 
720p, 1,280 x720, 25Hz 
720p, 1,280 x720, 30Hz et eee 
“Ay ’ ’ x E ’ 
AP@I3 245,760 8,192 1,080i, 1,920 x1,080, 25Hz x x 45,000 5,500 j 4] 
1,080i, 19209 x 1,080, 30Hz 
1,080p, 1,9209 x1, 080, 25Hz 
1,080p, 1,920x1, 080, 30Hz 
720p, 1.280 x720, 50Hz 
720p, 1280 x720, 60Hz 
2,048 x1,024, 30Hz 
AP@IA 491,520 16,384 1,080p, 1,920 x1,080, 50Hz x x 135,000 16,500 [-1.024, 1.02334] x[ -256, 25534] 


MB/s: 每 秒 最 大 宏 块 数 ，MB/f: 帧 内 最 大 宏 块 数 ，Rmax: 以 kbit/s 为 单位 的 最 大 比特 率 ，Bmax: 以 16,384 比特 为 单位 的 最 大 缓冲 空间 大 小 ，MV: ((H]x[V]): 


1,080p, 1,9209 x1,080, 60Hz 
2,048 x 1,536, 24Hz 
2,048 x2,048, 30Hz 


动 矢量 范围 〈[ 水 平 ] x [垂直 ]) P: 渐进 的 ， I: 隔行 的 ，respectively [C7], (2006 SMPTE) 
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图 8.4 VC-1 档次 和 级 别 中 的 编码 成 分 


VC-1 的 语法 包括 多 个 分 级 层次 : 序列 、 入 口 点 、 帧 、 场 、 分 片 、 宏 块 、 和 块 
WH 8.3。 在 简单 和 主 档次 中 ， 一 个 序列 包括 一 系列 一 个 或 多 个 编码 帧 ， 这 些 编码 
帧 分 解 成 多 个 宏 块 ， 每 个 宏 块 包括 四 个 完 度 块 和 两 个 色差 块 ， 如 图 8. 5 所 示 。 在 高 
级 档次 中 ， 一 个 序列 包括 一 系列 一 个 或 多 个 入 口 点 片段 ,每 个 入 口 点 片段 包括 一 系 
列 一 个 或 更 多 帧 ， 其 中 每 个 入口 点 片段 的 第 一 帧 提供 了 随机 访问 功能 。 高 级 档次 的 
一 个 分 片 包括 一 个 或 多 个 相 邻 行 的 宏 块 。 在 隔行 高 级 档次 中 ， 给 出 了 两 个 场 的 对 
应 层 。 


表 8.3 VC-1 档次 中 的 分 级 比特 流 层次 [B14] 








档次 
简单 与 主 档次 渐进 的 高 级 档次 隔行 的 高 级 档次 
比特 流 1. 序列 1. 序列 1. 序列 
层 2. 帧 2, 人口 点 2. 入 口 点 
3. 宏 块 3. 帧 3. 帧 
4. 块 4. 分 片 4. 场 
5. EIR 5. 分 片 
6. 块 6. 宏 块 
7. 块 
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图 8.5 给 出 VC-1 的 帧 、 分 片 、 宏 块 和 块 的 编码 层次 [C7] (2006 SMPTE) 
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8.4 简单 档次 


8.4.1 比特 流 结构 


VC-1 解码 器 用 来 自 编码 器 的 元 数据 初始 化 它 的 解码 过 程 。 表 8. 4 为 简单 档次 
和 主 档 次 定义 的 序列 层 数 据 结构 ， 以 码 值 0xC5 FA, Ja Et T i w AH 
参数 。 

STRUCT_C 包括 如 下 的 硅 干 参 数 。PROFILE (4bit) 指出 简单 档次 、 主 档次 
还 是 高 级 档次 。 后 处 理 量化 帧 率 指示 器 (FRMRTQ_POSTPROC, 3bit) 给 出 后 处 
理 的 帧 率 。 如 果 它 是 7， 那 么 帧 率 大 约 是 30 帧 /s。 输 入 的 其 他 值 通 过 方程 (2 + 
FRMRTQ_POSTPROC x4) 导出 帧 率 。 比 特 率 由 BITRTQ_POSTPROC (Sbit) 进行 
类 似 定 义 。LOOPFILTER 是 1bit 的 逻辑 量 ， 对 于 简单 档次 应 该 是 0 值 (无 环 路 滤 
波 )。 通 过 使 用 1bit 的 MULTIRES， 任 何 一 帧 都 可 以 低 于 规定 帧 分 辨 率 (垂直 和 
水 平 大 小 ) 进行 编码 。 多 分 辨 率 的 实际 大 小 可 以 按照 帧 级 上 的 RESPIC 来 定 
义 。FASEUVMC (1bit) 指明 是 否 要 使 用 亚 像素 内 插 和 色差 运动 矢量 取 整 。 如 果 它 
设 为 1，1/4 精度 的 色差 运动 矢量 会 取 整 到 最 近 的 半 像 素 或 全 像素 的 位 置 。 
EXTENDED_MV (1bit) 指明 是 否 使 用 扩展 运动 矢量 ， 对 于 人 简单 档次 总 是 设 为 0 
(没有 扩展 的 运动 矢量 ) 。 可 以 使 用 不 同 的 量化 需 (DQUANT, 2bit), ， 如 果 在 主 档 
次 中 该 标志 等 于 1 或 2。 对 于 简单 档次 ，DQUANT =0; 对 于 整 幅 帧 只 用 一 个 量化 步 
长 。 可 变 大 小 的 变换 标志 (VSTRANSFORM, 1bit) 用 来 指出 变换 块 的 大 小 可 以 变 
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为 8x4, 4x8, 或 4x4。 如 果 OVERLAP (1bit) 设 为 1,， 那 么 使 用 重奏 变换 。 同 
步 标记 (SYNCMARKER，1bit) 在 简单 档次 中 设置 为 零 。 如 果 SYNCMARKER == 
1, 那么 同步 标志 就 会 出 现在 比特 流 中 。 在 简单 档次 中 范围 减少 标志 ( RANG- 
ERED，1bit) 会 设 为 0， 伴 随 它 的 有 帧 层 里 的 RANGEREDFRM ， 该 参数 指出 在 保 
证 原始 重建 帧 用 于 未 来 运动 补偿 的 同时 ， 当 前 解码 帧 应 该 按 比 例 放 大 。MAXB- 
FRAMES (3bit) 指出 I 或 P 帧 之 间 B 帧 的 个 数 。QUANTIZER (2bit) 指示 用 于 序 
列 的 量化 右 ， 可 以 是 隐 含 的 (00b) 或 显 式 的 (10b)， 和 均匀 的 (10b) 或 非 均 匀 
的 (11b)。 帧 内 插 标 志 (FINTERPFLAG, 1bit) 借 同 帧 首部 中 的 INTERPFRM， 指 
示 启 用 帧 内 插 。 








表 8.4 简单 档次 和 主 档次 的 序列 层 数 据 结 构 [C7] 
31 ~24 (1B) 23 ~0 (3B) 
0xC5 (8bit) NUMFRAMES (24bit) 





0x00000004 (4B) 

STRUCT_C 包括 PROFILE, FRMRTQ_POSTPROC, BITRTQ_POSTPROC, 
LOOPFILTER, MULTIRES, FASTUVMC, EXTENDED_MV, DQUANT, 
VSTRANSFORM, OVERLAP, SYNCMARKER, RANGERED, MAXBFRAMES, 
QUANTIZER, FINTERFLAG (4B) 

STRUCT_A 包括 VERT_SIZE (4B) 

STRUCT_A 包括 HORIZ_SIZE (4B) 

0x0000000C (4B) 

STRUCT_B 包括 LEVEL (3bit), CBR (1bit), RES1 (4bit), HRD_BUFFER (24bit) 

STRUCT_B 包括 HRD_RATE (4B) 

STRUCT_B 包括 FRAMERATE (4B) 








STRUCT_A 包括 垂直 帧 大 小 (VERT_SIZE, 32bit) 和 水 平 帧 大 小 ( HORIZ_ 
SIZE，32bit) 。 简 单 档次 和 主 档 次 中 的 STRUCT_B 包括 六 个 参数 : 指示 编码 级 别 的 
LEVEL (3bit) ， 指 示 恒 定 比 特 率 模型 是 否 被 用 的 CBR (1bit) ， 以 ms 为 单位 指示 
假设 参考 解码 器 缓冲 大 小 的 HRD_BUFFER (24bit), DA bit/s 为 单位 指示 传输 速率 
峰值 的 HRD_RATE (32bit), ， 和 指示 编码 视频 段 的 取 整 帧 率 的 FRAMERATE 
(32bit) 。 


8.4.2 ”基本 档次 的 帧 内 压缩 


压缩 过 程 首先 从 执行 变换 编码 降低 空间 元 余 开 始 ， 然 后 进行 基于 块 的 预测 编码 
以 降低 时 间 宛 余 。 对 一 个 帧 内 编码 块 来 说 ， 一 帧 被 分 解 为 多 个 块 然后 进行 8 x8 的 
整数 变换 得 到 变换 系数 ， 如 图 8.6 所 示 。 注 意 到 ， 帧 内 编码 块 仅仅 利用 来 自 目 号 或 
当前 帧 的 信息 ; 而 帧 间 编 码 块 用 到 自身 和 其 他 时 间 上 出 现 的 块 和 帧 的 信息 。 量 化 用 
于 变换 系数 ,产生 量化 过 的 1 个 直流 系数 和 63 个 交流 系数 。 














预测 块 
量化 的 变换 





直流 预测 
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交流 变 长 编码 游程 编码 Z 形 扫描 





图 8.6 帧 内 编码 块 的 变换 编码 [C7] (2006 SMPTE) 





直流 系数 通过 给 量化 直流 系数 乘 以 量化 步 长 得 以 重建 。 
DC = DCu x DCStepSize (8.8) 
DCStepSize 值 从 宏 块 量化 值 (MQUANT) 中 得 出 如 下 : 
如 果 MQUANT 等 于 1 或 2，DCStepSize =2 x MQUAN, 
如 果 MQUANT 等 于 3 或 4，DCStepSize =8。 
如 果 MQUANT 大 于 或 等 于 $，DCStepSize = MQUAN/2 +6, 
标准 定义 了 均匀 和 非 均 匀 量 化 器 交流 系数 的 逆 量 化 。 如 果 均 匀 量 化 器 由 参数 
QUANTIZER 指示 ， 








AC =ACux(2xMQUANT + HALFQP) (8.9) 
如 有 果 使 用 了 非 均匀 量化 器 ， 


AC. =ACux(2xMQUANT+HALFQP) +sign(ACu) x MQUANT (8.10) 
AP, AC, 表示 量化 的 交流 系数 ; HALFQP 是 出 现在 各 类 型 帧 中 的 1bit 的 语法 元 
Ko WMR HALFQP ==1， 当 进行 基于 PQUANT 进行 解码 时 ， 帧 量化 器 步 长 等 于 
PQUANT +0.5。 当 进行 基于 VOPDOUANT 的 解码 时 ， 它 是 去。 如 果 PQINDEX 小 于 


或 等 于 8 ， 它 出 现在 各 种 类 型 的 帧 里 。 
8.4.3 ” 块 大 小 可 变 的 变换 规定 


通过 令 序 列 层 中 的 语法 元 素 VSTRANSFORM =1， 启 用 块 大 小 可 变 的 变换 编码 。 
这 一 元 素 用 于 所 有 的 三 种 档次 中 。 如 果 VSTRANSFORM ==0, 8 x8 的 变换 用 于 所 
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有 的 块 。 如 果 VSTRANSFORM = = 1， 宏 抉 级 的 变换 类 型 标记 (TTMBF, Macrob- 
lock- Level Transform Type Flag, 1bit 的 语法 元 素 ) 也 出 现在 P 和 B 帧 的 首部 ， 指 明 
是 否 在 帧 或 宏 块 级 上 局 用 变换 类 型 编码 。 如 末 TTMBF ==1， 那 么 帧 级 上 的 变换 类 
型 (TTFRM: frame-level transform type) 语法 元 素 就 会 出 现在 帧 级 的 层 里 。 变 换 的 
大 小 由 表 8.5 的 2bit TTFRM 码 来 定义 ， 它 用 于 帧 里 的 所 有 块 。 


表 8.5 TTFRM 码 对 应 的 可 变 变 换 的 大 小 信息 








TTFRM 码 变换 类 型 
00b 8 x8 变换 
01b 8 x4 变换 
10b 4x8 变换 
11b 4 x4 变换 


如 果 启 用 块 大 小 可 变 的 变换 ,那么 8 x8 的 残 差 块 可 能 用 一 个 8 x8 变换 来 变 
也 可 能 水 平 划分 然后 进行 两 个 8 x4 变换 ， 或 者 垂直 划分 然后 进行 两 个 4 x8 变 
或 者 分 成 四 部 分 进行 四 个 4 x4 变换 ， 如 图 8.7 所 示 。 


8X8 8X4 4X8 4X4 


图 8.7 块 大 小 可 变 变 换 的 结构 [C7] (2006 SMPTE) 


os 


s 


如 果 TTMBF ==0， 那 么 变换 类 型 在 整 幅 帧 上 都 会 改变 ， 而 且 应 该 在 宏 块 级 
或 者 块 级 上 加 以 指示 。 安 块 变换 类 型 (TITMB Macroblock Transform Type ) 在 安 
块 层 定 义 了 变换 类 型 ， 指 示 级 别 ( 宏 块 还 是 块 ) ， 和 子 块 模式 。 出 现 TTMB K 
H, BERR PATRAS A ( 即 至 少 一 个 编码 块 )。 如 果 指 示 级 别 
规定 了 宏 块 模式 ， 那 么 TTMB 定义 的 变换 类 型 就 用 于 解码 宏 块 中 的 所 有 块 。 如 果 
指示 级 别 是 块 模式 ， 那 么 变换 类 型 就 用 于 解码 宏 块 中 的 第 一 个 编码 块 。 其 他 块 的 
变换 类 型 在 块 级 别 上 给 出 。 如 采 变 换 类 型 是 8 x4 或 4x8， 那 么 子 块 模式 就 给 出 
8 x4 或 4x8 子 块 的 哪 一 个 具有 至 少 一 个 非 零 系数 。 表 8.6 中 用 示例 总 结 了 变换 
大 小 和 相关 指示 ， 因 为 TTMB VLC 取决 于 PQUANT 的 值 。 如 果 他 小 于 或 等 于 4， 
就 定义 高 比特 率 的 VLC。 如 果 它 大 于 4 且 小 于 或 等 于 12， 就 定义 中 等 比特 率 的 
VLC。 如 果 它 大 于 12， 就 定义 低 比特 率 的 VLC。 表 8.6 中 的 示例 代码 是 中 等 比特 
率 的 。 
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表 8.6 定义 块 大 小 可 变 的 变换 的 参数 
指示 启用 示例 意义 启用 
VSTRANSFORM == 8 x8 变换 
VSTRANSFORM ==1 TTMBF == TTMB 0010001b 8 x4 变换 
(VLC) 宏 块 模式 不 出 现 TTBLK 
上 8 x4 编码 块 
1111b 4 x8 变换 
(VLC) 块 模式 出 现 TTBLK 
右 4 x8 编码 块 
TIMBF ==1 TIFRM 00b 8 x8 变换 
01b 8 x4 变换 
10b 4 x8 变换 
11b 4 x4 变换 


变换 大 小 块 级 定义 的 TTBLK 语法 元 系 只 出 现在 帧 间 编 码 的 块 中 ， 且 只 在 TITMB 
给 出 块 模式 的 宏 块 中 。 每 个 宏 块 中 的 第 一 个 帧 间 编 码 块 没有 对 应 的 TTBLK， 因 为 
变换 类 型 和 子 块 模式 是 用 于 第 一 个 帧 间 编 码 块 的 。 这 样 ， 对 于 第 一 个 帧 间 编 码 块 之 
后 的 每 个 帧 间 编 码 块 都 对 应 一 个 TTBLK。 还 定义 了 TTBLK 相应 于 低 、 中 、 高 
PQUANT 值 的 三 个 不 同 的 VLC 表 。 这 些 只 适用 于 8 x4 和 4x8 变换 。 对 于 4x4 变 
换 类 型 ， 出 现 SUBBLKAT 来 规定 四 个 4 x4 子 块 的 哪 一 个 至 少 有 一 个 非 堆 系数 。 
SUBBLKPAT 的 三 个 VLC 表 也 依据 PQUANT 的 值 来 定义 。 


8.4.4 Bean 


序列 层 的 语法 元 素 OVERLAP 用 于 指示 对 于 亮度 和 色差 通道 是 否 跨 越 两 个 相 邻 
帧 内 编码 块 的 边沿 进行 有 条 件 的 滤波 操作 (OVERLAP ==1) 还 是 不 操作 (OVER- 
LAP ==0) 。 该 滤波 操作 被 称 为 是 重 琶 平滑 。 对 于 简单 档次 ， 仅 当 帧 级 量化 步 长 
PQUANT 是 9 或 更 高 时 才 用 到 OLT。 这 是 因为 OLT 只 对 具有 失真 边沿 的 块 才 起 
作用 。 

me HR (OLT) 的 基本 思想 是 交换 两 个 相 邻 块 的 边沿 数据 ， 两 个 块 都 具有 原 
人 质量， 如 图 8. 8 所 示 。 当 两 个 这 样 的 相 邻 块 经 过 变换 /量化 和 逆 量 化 / 逆 变 换 ， 在 
某 些 情况 下 ， 在 一 个 块 中 就 可 能 引入 比 其 他 块 更 严重 的 量化 误差 和 /或 块 效应 。 在 
解码 句 ， 两 侧 的 边缘 数据 应 该 再 次 交换 位 置 以 恢复 原始 数据 的 位 置 。 那 么 ， 一 个 好 
质量 的 块 包含 了 差 质量 的 边缘 ， 而 一 个 差 质 量 的 块 包 含 了 好 质量 的 边缘 。 换 言 之 ， 
好 质量 和 差 质量 块 彼此 融合 。 

当 直 接应 用 重重 变换 平滑 ( 见 图 8.8) 的 概念 时 ， 由 于 边缘 交换 就 可 能 引入 高 
频 分 量 。 因 此 ， 把 滤波 操作 定义 为 OLT 而 不 是 简单 的 数据 置换 。 重 雪 平 滑 用 于 8 x 
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倒置 换 边 党 


图 8.8 重 闪 变换 平滑 的 概念 [B14] (2008 Springer) 


8 的 帧 内 块 边 党 ,边界 两 端的 两 个 像素 如 图 8.9 所 描述 ， 给 出 在 水 平方 向 上 平滑 垂 
直 边 沿 的 四 个 像素 (a0, al, bl 和 b0)， 以 及 在 垂直 方向 上 平滑 水 平 边沿 的 四 个 
像素 (p0，pl1，q1，q0) 。 黑 色 圆 圈 标 记 在 两 个 方向 上 被 平滑 的 2 x2 WARTH, 
首先 对 垂直 边 汉 进行 滤波 ， 之 后 进行 水 平 滤波 。 
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Al8.9 ”两 块 之 间 重 车 平滑 示例 [C7] (2006 SMPTE) 


或 者 垂直 边沿 或 者 水 平 边沿 的 滤波 操作 执行 如 下 





Yo 7 0 0 1 Xo 70 

-1 7 1 1 x r 
ae +| |||>3 (8.11) 
Ya 1 1 7 =] 2 ro 


ES Tda i 

这 里 , x, y, 和 分别 表 示 原 始 像素 、 滤 波 像素 和 取 整 的 值 。 对 于 奇数 列 / 行 ， 
ry =4 Er =3， 假 定 抉 内 编号 从 1 开始 。 对 于 偶数 列 / 行 ， m =3 Ar, =4。 

at (8.11) 的 道 矩 阵 应 该 用 在 编码 器 端 。 注 意 ， 该 矩阵 应 该 实现 一 种 低 通 滤 

波 ， 将 原始 数据 分 布 到 两 个 相 邻 块 的 边沿 上 ， 如 上 面 解释 的 那样 。 如 果 在 量化 过 程 








中 损失 了 一 个 块 的 一 些 纹理 ， 那 么 由 于 解码 需 的 逆 分 布 运算 ， 丢 失 的 纹理 可 以 被 获 
取 回 来 。 交 换 数 据 的 时 候 ， 帧 内 编码 块 和 帧 间 编 码 块 不 应 该 交换 的 (也 就 是 说 ， 
帧 间 编 码 是 针对 残 差 数据 的 )。 因 此 ， 当 两 个 块 的 数据 几乎 部 饱和 在 255 时 ， 由 于 
运算 的 线性 特性 滤波 可 能 产生 溢出 。 为 了 避免 洪 出 ， 标 准 对 OLT 定义 了 128 的 平 
E 〈 加 到 块 的 每 个 像素 上 ) 然后 箱 位 到 [0, 255] 的 范围 。 


8. 4. 5 ”每 个 宏 块 的 4 个 运动 矢量 


在 P 和 B 帧 的 首部 指明 了 运动 矢量 模式 (MNMODE, VLC), XF PW, X 
了 5 种 模式 : 1IMV、1MV- 半 像素 MV、1MV- 半 像素 - 双 线 性 、 混 合 -MV、 和 亮度 补 
偿 。 对 于 简单 档次 ， 不 使 用 亮度 补偿 模式 。 对 于 高 级 档次 ， 亮 度 补偿 意味 着 参考 帧 
的 像素 在 用 它们 作为 当前 帧 预测 需 之 前 要 重新 映射 。 如 果 MVMODE 给 出 混合 - MV 
模式 ， 那 么 就 会 出 现 MVTYPEMB 来 指示 用 位 平面 编码 的 1MV 或 4MV， 如 图 8. 10 
所 示 。 位 平面 中 的 0 值 表示 宏 块 以 1MV 模式 编码 ， 而 1 值 表示 宏 块 以 4MV 模式 编 
码 。SKIPMB 也 指出 在 使 用 位 平面 编码 方法 时 跳 过 哪个 MB。 跳 跃 模式 意味 着 该 宏 
块 没 有 运动 矢量 数据 且 没 有 残 差 数据 。MVTAB 是 一 个 2bit 的 语法 元 素 ， 规 定 了 四 
个 表 的 哪 一 个 用 于 解码 宏 块 层 的 MVDATA。 


IMV. RE 
如 果 混 合 -MV， 决 定 IMV/4MV 
用 位 平面 编码 一 帧 




















中 被 跳 过 的 宏 块 数 
MV 解码 表 
MV 数据 解码 


图 8.10 在 简单 / 主 档 次 P WUE MV 解码 的 语法 流程 图 





MVDATA 包含 宏 块 的 运动 失 量 差分 信息 。 在 所 有 的 1MV 和 4MYV 情况 下 ， 通 过 
预测 值 加 上 差分 值 重 建 亮度 分 量 的 运动 矢量 ， 计 算 如 下 : 


mv, = (dmv, + predictor_post, ) smod range, 











mv, = (dmv, + predictor_post, ) smod range, 

式 中 ， range 表示 由 MVRANGE 定义 的 水 平 或 垂直 方向 上 运动 矢量 的 范围 ， predictor_ 
post 表示 水 平 或 垂直 的 运动 矢量 预测 值 ，dmrv 表示 差分 运动 矢量 。Smod 意思 是 市 符 
号 模 数 操作 符 ， 人 允许 重建 矢量 可 以 具有 负 值 。(4 smod 6) = ((A +b) &(2b-1)) -2， 
其 中 0 是 2 We, WE TEER, 在 -和 2 -1 之 间 。 这 里 的 & 表示 位 
与 操作 符 。 

宏 块 的 运动 矢量 预测 值 (MVP, Motion Vector Predictor ) 从 三 个 相 邻 宏 块 或 
块 的 候选 运动 矢量 中 选 出 ， 如 图 8. 11 所 示 。 上 面 的 两 种 方式 用 于 16 x 16 块 运动 
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补偿 模式 。 通 第 情 况 下 ， 第 一 种 方式 用 于 选择 候选 运动 矢量。 如 果 当 前 宏 块 的 位 
置 在 一 行 的 最 后 ， 那 么 是 得 不 到 宏 块 B 的 。 在 此 情况 下 ， 用 第 二 种 方式 来 选择 
候选 运动 矢量。 下 面 两 种 方式 用 于 混合 大 小 的 运动 补偿 模式 ， 其 中 当前 块 用 
16 x16 块 的 运动 补偿 ， 相 邻 块 用 8 x8 块 的 运动 补偿 。 对 于 从 相 邻 宏 块 中 选择 候 
选 运动 矢量 它们 是 相似 的 ， 除 了 最 近 的 8 x8 块 是 从 每 个 宏 块 的 四 个 8 x8 块 中 
选 出 。 











图 8.11 P 帧 中 1MV (上 面 两 个 ) 和 混合 MV (下 面 两 个 ) 
的 候选 运动 矢量 预测 器 [C7] (2006 SMPTE) 


8 x8 块 的 MVP 选 自 三 个 相 邻 宏 块 或 块 的 候选 运动 矢量 ， 如 图 8.12 所 示 。 该 
方式 用 一 个 宏 块 内 每 个 块 的 候选 运动 矢量 来 描述 一 一 块 0 (左上 块 )、 块 1 (A 
上 )、 块 2 (左下 ) 或 块 3 ( 右 下 )。 对 于 某 些 特殊 情况 ， 由 于 在 相 邻 块 得 不 到 MV 
数据 就 会 选择 某 些 不 同 的 方式 。 对 于 宏 块 是 一 行 中 的 第 一 宏 块 的 情况 ， 与 该 行 中 的 
剩余 块 相 比 ， 块 0 的 预测 器 B 要 进行 不 同 的 人 处理。 在 此 情况 下 ， 预 测 器 B 来 自 当 
前 宏 块 硕 上 方 宏 块 中 的 块 3 而 不 是 当前 宏 块 左上 宏 块 中 的 块 3。 如 果 宏 块 是 列 中 的 
第 一 宏 块 ， 那么 块 0 和 2 的 预测 器 C 设 为 0。 


8.4.6 Y 分 量 的 1/4 像素 运动 补偿 


用 于 大 多 数 视频 编码 标准 的 运动 矢量 在 二 维 矢量 空间 中 表示 ， 为 运动 补偿 过 程 
提供 从 当前 帧 或 场 的 坐标 位 置 到 参考 帧 或 场 坐标 的 偏 移 。 使 用 运动 矢量 是 为 了 通过 
降低 预测 误差 提高 样 值 预测 的 效率 。 在 VC-1 编码 器 中 ， 预 测 过程 利 用 运动 矢量 提 






































图 8.12 4MV AY MV AM% (2006 SMPTE) 
a) 如 果 不 是 行 中 首 个 宏 块 ， 块 0 的 预测 需 “b) 如 果 是 行 中 首 个 MB， 块 0 的 预测 器 








c) 如 果 不 是 行 中 最 后 的 宏 块 ， 块 1 的 预测 器 d) 如 果 是 行 中 最 后 的 宏 块 ， 
块 1 的 预测 融 e) 块 2 TUN O 块 3 的 预测 右 


供 对 包含 已 解码 样 值 的 过 去 和 /或 未 来 参考 帧 或 场 的 偏 移 。 

一 个 视频 编译 码 兢 的 效率 与 生成 一 组 好 预测 值 的 运动 补偿 右 的 能 力 密切 相关 。 
运动 补偿 的 质量 右 四 个 因素 决定 : 

1) 亚 像素 分 辩 率 ; 

2) 预测 区 域 的 大 小 ; 

3) 搜索 窗口 的 大 小 ; 

4) 用 于 插值 的 滤波 器 。 

尽管 亚 像素 分 辨 率 改善 了 预测 的 质量 ,但 走向 更 精细 像素 分 辨 率 的 好 处 被 更 高 
精度 地 编码 运动 矢量 增加 的 代价 所 抵消 。 在 低 比 特 率 时 ， 因 为 用 于 编码 运动 矢量 的 
比特 百分比 是 相当 大 的 ， 所 以 运动 矢量 的 较 高 精度 是 理 所 应 当 的 。 在 标准 的 视频 编 
译 码 需 存 在 的 档次 中 ， 运 动 矢量 分 辨 率 或 者 是 1/2 或 者 是 1/4 像素 。 

影响 生成 好 预测 值 能 力 的 第 二 个 因素 是 预测 区 域 的 大 小 。 通 常 在 较为 陈旧 的 格 
式 中 ， 一 个 运动 矢量 用 于 一 个 宏 块 ， 它 是 亮度 平面 中 的 一 个 16 x 16 的 像素 区 域 。 
MPEG-4 允许 对 16 x16 或 8 x8 的 块 具有 运动 矢量 ;对 于 每 个 被 编码 的 宏 块 都 做 这 
种 选择 。H. 264/AVC 人 允许 运动 矢量 的 参考 区 域 小 到 4 x4。 尽 管 这 种 程度 的 自由 可 
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以 用 于 高 比特 率 上 ， 但 较 小 的 区 域 会 给 编译 码 器 施加 较 高 的 计算 开销 。 带 有 随机 分 
布 运动 矢 量 的 较 小 块 引 起 对 缓存 的 访问 次 数 ， 而 且 它 们 需要 更 多 的 按 像素 进行 的 滤 
波 步骤 。 这 样 ， 解 码 需 的 计算 复杂 度 相 应 地 提高 了 。YVC-1 默认 使 用 16 x16 的 块 ， 
但 允许 帧 内 有 8 x8 大 小 的 块 ， 该 帧 指明 包含 混合 运动 矢量 的 分 辨 率 [C29 ] 。 

第 三 个 因素 ， 搜 索 窗 口 的 大 小 〈 见 图 8. 13 ) ， 决 定 了 预测 中 的 〈(M xN) 块 的 
运动 矢量 (水 平和 垂直 ) 范围 。 较 大 的 搜索 窗口 可 以 找到 最 佳 的 匹配 ， 但 要 涉及 
更 多 的 计算 。 
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图 8.13 Æ n-1 中 搜索 运动 矢量 的 搜索 窗口 


最 后 ， 用 于 生成 亚 像素 预测 值 的 滤波 絮 是 运动 补偿 质量 的 第 四 个 关键 决定 因 
泰 。 较 短 的 滤波 絮 计 算 较 为 简单 但 频率 响应 较 差 ， 而 且 反 过 来 又 受到 噪声 的 影响 。 
较 长 的 滤波 器 用 到 更 多 的 像素 ， 计 算 起 来 更 难 实现 。 而 且 ， 具 有 局 部 和 和 暂 态 特性 的 
图 像 使 用 长 滤波 器 趋向 于 发 生 拌 动 。VC-1 通过 使 用 两 组 运动 补偿 滤波 器 平衡 了 这 
些 考 虑 。 第 一 组 是 四 抽 头 的 近似 双 三 次 滤波 器 ， 第 二 组 是 两 抽 头 的 双 线 性 滤波 器 。 
图 8. 14 中 像素 的 双 线 性 内 插 计 算 取 决 于 像素 位 置 。A，B，C 和 D 是 整数 像素 。 
h 位 于 水 平 半 像 素 和 垂直 半 像 素 的 位 置 上 。g 位 于 水 平 半 像素 和 垂直 1/4 像素 的 位 置 
上 。 尽 管 双 线性 内 搬 器 是 为 1/4 像素 MV 分 辩 率 定义 的 ,但 只 有 半 像 素 运 动用 于 亮度 
BR, 1/4 像素 分 辨 率 只 用 于 色差 块 。 对 于 半 像 素 情况 ， 双 线性 内 插 由 以 下 公式 进行 

b=(A+B+1-RND) >l 
f=(A+D+1-RND) >1 (8. 12) 
h=(A+B+C+D+2-RND) >2 
式 中 ，RND 是 帧 级 取 整 控制 值 。 简 单 / 主 档次 和 高 级 档次 之 间 的 策略 是 不 同 的 。 对 
于 简单 / 主 档次 ， 在 每 个 1 和 BI Wi, RND 的 值 重 置 为 1。 注 意 ，BI 帧 是 一 帧 左右 宏 
块 进行 帧 内 编码 的 B 帧 。 每 个 P 帧 的 RND 在 0 和 1 之 间 切 换 。B 帧 的 RND 与 以 前 
的 销 定 帧 (I 或 P) 保持 相同 。 对 于 高 级 档次 ，RND 从 帧 首部 的 RNDCTRL 语法 元 
素 导 出 。 
应 用 于 所 有 情况 的 一 般 规 则 如 下 所 示 。 数 组 FA G 是 滤波 器 的 系数 。 给 定 


























={0, 1, 2, 3, 4}, Aififa p 给 出 如 下 : 
LyJA+Fl«|Gly|B+G6[x«]Gly]C+G[«|]Fly|D+8-RND) >4 
(8. 13) 


I wv 


[x 


式 中 , Aly 是 水 平 (从 左 到 右 ) 和 垂直 (从 下 而 
上 ) 方向 上 的 亚 像 素平 移 。 在 图 8. 14 所 示 的 由 四 [c ] re 
个 像素 框 定 的 原点 在 A 处 的 区 域 里 ， 它 们 的 值 的 





范围 是 0~4。 例 如 ， 对 于 g 的 亚 像素 偏 移 是 x =2 
而 y=1。 式 (8.13) 中 一 般 的 规则 产生 了 半 像 素 
内 插 的 在 式 (8.12) 中 的 特殊 情况 。 
双 三 次 内 插 滤 波 希 抽 头 定义 如 下 : 图 8.14” 双 线性 插值 的 整数 像素 、 
Tol] ={-1,9,9, -1} for 1/2 pel shift, IRA 1/4 像素 位 置 
Tal] ={ -4,53,18, -3} for 1/4 pel shift, 
Taal] = { -3,18,53, -4} for 3/4 pel shift. (8. 14) 


图 8.15 中 示例 的 双 三 次 内 搬 计算 如 下 : 

dd =( -4A +53D +18H -3K +32 -r) >6, 
ii=( -A+9D+9H-K+8-r) >4, 

nn = ( -3A +18D +53H -4K +32 -r) >6, 

a=( -4C +53D +18E -3F +32 -r) >6, (8. 15) 
b=(-C+9D+9E-F+8-r) >4, 

c=( -3C +18D +53E -4F +32 -r) >6, 

M=( -4S +53C +186 -3U +32 -r) >6, 


a B Pl H 


zZ 





图 8. 15 双 三 次 内 插 的 整数 像素 、 半 像素 和 1/4 像素 位 置 
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式 中 ， 对 于 垂直 方向 ，r =1 - RND; 而 对 于 水 平方 向 , r>= RND。 垂 直 滤 波 输出 在 
取 整 之 后 输入 到 水 平 滤波 环节 。 


8.5 FSXR 


8.5.1 CbCr 的 1/4 像素 运动 补偿 


色 度 分 量 总 是 利用 双 线 性 内 插 法 ， 而 且 VC-1 目前 只 定义 了 一 种 色 度 格式 
YCbCr 4: 2: 0。 因 为 色 度 运动 矢量 隐 含 地 来 自 于 相同 位 置 上 的 亮度 运动 矢量 ， 精 
度 有 限 且 有 简化 的 余地 。 另 外 ， 色 度 通道 具有 很 强 的 低 通 分 量 。VC-1 用 双 线 性 滤 
波 器 实现 色 度 的 运动 内 搬 。 一 般 而 言 ， 通 过 将 相同 位 置 的 亮度 运动 矢量 除 以 2 再 取 
整 到 1/4 像素 的 位 置 得 到 色 度 运动 矢量。 另外 ,序列 级 上 有 个 1bit 的 域 控制 着 色 度 
运动 矢量 的 取 整 。 如 采 设 置 了 该 比特 ， 那 么 仿 移 了 四 分 之 一 像素 的 色 度 运动 矢量 就 
被 取 整 到 最 近 的 全 像素 位 置 一 一 事实 上， 对 于 色 度 运动 矢量 只 允许 1/2 和 全 像素 的 
位 置 。 这 种 模式 的 目的 是 为 了 解码 器 的 速度 优化 。 该 优化 的 动机 是 在 不 同 精度 偏 移 
上 进行 内 插 的 复杂 度 的 显著 差异 : (整数 像素 ; @) 半 像素 ; @ (x 和 y) 至 少 有 一 
个 坐标 在 1/4 像素 位 置 上 ; (9 两 个 坐标 都 在 1/4 像素 位 置 上 。 以 上 a:b: cd 大 约 是 
1:4:4.7:6.6。 通 过 使 用 这 种 模式 ， 就 可 以 做 到 支持 四 和 @， 这 样 就 削减 了 解码 时 
间 。 因 为 这 只 是 对 色 度 内 插 进行 的 操作 ， 编 码 和 质量 损失 (尤其 是 主观 质量 ) 都 
可 以 忽略 [C2]. 

有 一 个 面向 解码 软件 设计 的 叫 作 FASTUVMC 的 Fast UV 运动 补偿 标志 ， 旨 在 
降低 内 插 运 算 的 复杂 度 ， 因 为 内 插 环 节 是 解码 软件 中 计算 最 复杂 的 部 分 。VC-1 编 
码 需 可 以 利用 FASTUVMC 模式 ， 这 种 模式 不 会 生成 1/4 像素 精度 的 色 度 运动 矢量 。 
如 果 FASTUVMC ==1, ite 1/4 像素 的 色差 运动 矢量 就 被 取 整 到 最 近 的 半 像 素 或 
全 像素 的 位 置 。 如 果 FASTUVMC ==0， 和 那么 对 色差 分 量 就 没有 任何 取 整 和 滤波 操 
作 。 对 于 简单 档次 而 言 ，FASTUVMC 设置 为 1。 


8.5.2 起 始 码 


起 始 码 是 一 个 艇 入 在 比特 流 中 的 32bit 的 码 ， 它 是 唯一 的 且 指 示 了 比特 流 数据 
单元 (BDU, Bitstream Data Unit) 的 开头 。BDU 是 一 个 压缩 数据 的 单元 ,在 相同 
的 层次 级 别 上 可 以 在 语法 方面 (语法 解码 后 ) 独立 于 其 他 信息 。BDU 可 以 是 ， 例 
如 ， 一 个 序列 首部 、 一 个 入 口 点 首部 ， 一 个 编码 帧 或 分 片 。 起 始 码 包含 一 个 独 一 无 
二 的 三 字 节 起 始 码 前 级 (SCP, Start Code Prefix) 0x000001 ， 和 一 个 一 字 节 的 起 始 
IJA (SCS, Start Code Suffix) ， 它 用 于 识别 起 始 码 后 面 BDU 的 类 型 。 例 如 ， 一 
帧 之 前 的 起 始 码 后 缀 是 0x0D ， 不 同 于 一 个 分 片 之 前 的 起 始 码 后 缀 0x0B。 块 和 宏 块 
不 是 BDU， 因 而 没有 起 始 码 也 不 必 字 节 对 齐 [C4]. 
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起 始 码 模拟 预防 (JEX: emulation prevention 译 者 注 ) 用 于 表 8.7 中 VC-1 
SPMP_PESpacket_PayloadFormatHeader ( ) 结构 里 的 所 有 字 节 ， 以 及 该 结构 之 后 的 
PES 包 有 效 荷 载 字 节 中 ， 以 避免 起 始 码 出 现在 PES 包 有 效 和 荷载 的 任何 其 他 位 置 上 。 
VC-1 定义 了 一 种 利用 字 节 填充 的 封装 机 制 。 用 这 种 机 制 封装 的 BDU 被 称 为 封装 
BDU (EBDU, Encapsulated BDU) ， 而 被 编码 需 封 装 之 前 或 者 被 解码 需 提 取 之 后 的 
压缩 数据 被 称 为 是 原始 BDU (Raw BDU), 


表 8.7 VC-1_SPMP_PESpacket_PayloadFormatHeader ( ) 的 结构 [C12] (2007 SMPTE) 











语 法 比 特 数 Ae A 





VC - 
1_SPMP_PESpacket_PayloadFormatHeader ( ) 
| 


32 0x0000010F 
start_code 
or 
0x0000010D 
if (start_code ==0x0000010F ) 
| 16 
frame_width 16 Uimsbf 
frame_height 32 Uimsbf 
STRUCT_SEQUENCE_HEADER_C () 32 Bslbf 
start_code 0x0000010D 


| 
else if (start_code ==0x0000010D ) 


| 
| 


8.5.3 ”扩展 的 运动 矢量 


VC-1 中 默认 运动 矢量 的 范围 是 [ -64, 63.f] x[ -32, 31.f], 其 中 f 对 于 1/4 
像素 的 运动 分 辨 率 是 分 数 3/4， 对 于 1/2 像素 的 运动 分 辨 率 是 1/2。 换 言 之 ， 对 于 默 
认 的 1/4 像素 运动 模式 是 沿 着 水 平 (X) HH [ -64, 6334], WR aHER (Y) 
HAY [ -32，31 冯 |]。 对 于 简单 档次 ， 应 该 使 用 默认 范围 。 对 于 主 档 次 和 高 级 档次 ， 
扩展 运动 矢量 模式 由 标志 EXTENDED_MYV 指示 出 来 。 如 果 EXTENDED_MV ==0, 使 
用 默认 范围 。 如 果 EXTENDED_MV ==1， 用 标志 MVRANGE 给 出 扩展 运动 矢量 范 
Hl, We 8. 8 所 定义 。 

W EXTENDED_MV ==1, 扩展 的 差分 运动 矢量 范围 标志 (EXTENDED _ 
DMV) 就 会 出 现在 入口 点 片段 内 P 帧 和 B 帧 的 帧 层 里 。 














第 8 章 VC-1 视频 编码 213 





表 8.8 VC-1 中 MVRANGE 指示 的 运动 矢量 范围 


MVRANGE VLC eo eI (KO x HEEL) 








Ob (默认 ) [ -64, 63.f{] x[ -32，31. f] 
10b [ -128, 127.f] x[ -64, 63.f], 
110b [ -512, 511.f] x[ -128, 127.f], 
111b [ -1024, 1023.f] x[ -256, 255. f], 
© 2006SMPTE 


328.9 WMR MAXBFRAMES >0 主 档次 的 帧 类 型 [C7] 





PTYPE VLC WO 类 型 
1b P 
01b I 
00b B a BI 


(2006 SMPTE) 


8.5.4 环 路 滤波 器 


重 准 平滑 之 后 ， 实 施 环 路 滤波 来 进一步 基于 帧 / 场 降低 块 效应 。 分 片 数据 也 被 
滤波 ， 每 个 分 片 的 环 路 滤波 问 独 立 执行 。 如 有 果 语 法 元 素 LOOPFILTER ==1, ABA 
进行 环 路 滤波 。 通 过 对 可 能 具有 块 效应 的 块 边沿 每 一 侧 
的 1 个 像素 进行 滤波 来 平衡 滤波 的 程度 和 复杂 度 。 环 路 
滤波 器 包含 在 VC-1 编码 /解码 环 路 之 内 ， 因 而 叫 作 环 路 
滤波 需 (ILF, in-loop Filtering)。 注 意 ， 在 环 路 之 外 可 
能 出 现 较 重 的 滤波 。 

对 于 I，B 和 了 BI 帧 ，ILF 在 所 有 的 8 x8 的 块 边界 上 
执行 。 因 为 


[JL] 
Bet 
[JL] 








是 4， 而 且 一 行 或 一 列 中 像素 总 数 总 是 4 的 倍数 ， 所 以 
在 4 像素 段 上 执行 的 IF 如 图 8. 16 给 出 。 在 4 个 像素 中 
的 第 3 个 像素 首先 被 滤波 ， 在 第 二 条 路 径 中 剩余 的 3 个 
像素 由 不 同 的 算法 进行 滤波 〈 见 图 8. 17 ) 。 两 个 边界 像素 
通过 图 8. 18 所 示 的 滤波 操作 加 以 修改 。 布 尔 值 “fter_ 


L 
行 或 一 列 中 被 滤波 的 连续 像素 的 最 小 个 数 ”站 
图 


4 像素 分 段 
第 3 像素 


OLI 


图 8.16 用 于 ILF 的 
两 个 4 像素 分 段 [C7] 


、 2006 SMPTE 
other_3_pixels’ 定义 了 片段 内 剩余 的 3 个 像素 对 是 否 也 


要 滤波 。 如 果 filter_other_3_pixels == TRUE, HKA HAt 3 个 像素 对 要 进行 滤波 。 否 
则 ， 滤 波 操作 前 往 下 一 个 4 像素 段 。 

对 于 P 帧 ,使 用 同样 的 滤波 会 有 一 些 例外 。 块 可 以 是 帧 内 编码 或 帧 间 编 码 的 。 
帧 内 编码 块 应 该 用 8 x8 的 逆 变 换 来 重建 样 值 ， 而 帧 间 编 码 块 用 8 x8, 8x4, 4x8, 
或 4 x4 的 逆 变 换 。 变 换 块 或 子 块 之 间 的 边界 像素 是 要 滤波 的 ， 除 非 发 生 以 下 例外 
情况 ， 当 边界 任 一 侧 的 变换 块 (或 子 块 ， 都 是 帧 间 编码 的 ， 且 当 两 个 块 (或 子 块 ) 
所 有 的 变换 系数 都 等 于 去 时 ， 不 会 执行 滤波 [ C7] 。 在 此 情况 下 ， 不 滤波 的 原因 是 








// 第 3 像素 滤波 


filter_ other 3_ pixels = TRUE 
a0 = (2*(p3 - p6) - 5*(p4 - p5) + 4) >> 3; 
if (abs(a0) < PQUANT) 
al = (2*(p1 - p4) - 5*(p2 - p3) + 4) >> 3; 
a2 = (2*(p5 - p8) - 5*(p6 - p7) + 4) >> 3; 
a3 = min(abs(al), abs(a2)); 
if (a3 < abs(a0)) 
d = 5*((sign(a0) * a3) - a0)/8; 
clip = (p4 - p5)/2; 
if (clip == 0) 
filter_other_3_pixels = FALSE 
else 
if (clip > 0) 
if (d < 0) 
d=0; 
if (d > clip) 
d = clip; 
else 
if (d > 0) 
d=0; 
if (d < clip) 
d = clip; 


p(4) = p4 - d; 
p(S) = p5 + d; 
else 
filter_other_3_pixels = FALSE; 
else 
filter_other_3_pixels = FALSE; 


图 8.17 对 于 第 3 像素 (E) 和 第 1， 第 


// 第 1, 第 2 和 第 4 像素 滤波 


a0 = (2*(p3 - p6) - 5*(p4 - p5) + 4) >> 3; 


if (abs(a0) < PQUANT) 
al = (2*(p1 - p4) - 5*(p2 - p3) + 4) >> 
3; 
a2 = (2*(p5 - p8) - 5*(p6 - p7) + 4) >> 
3; 
a3 = min(abs(al), abs(a2)); 
if (a3 < abs(a0)) 
d = 5*((sign(a0) * a3) - a0)/8; 
clip = (p4 - p5)/2; 
if (clip > 0) 
if (d < 0) 
d = 0; 
if (d > clip) 
d = clip; 


p(4) = p4 - d; 
p(5) = p5 + d; 
else if (clip < 0) 
if (d > 0) 
d = 0; 
if (d < clip) 
d = clip; 


p(4) = p4 - d; 
p(5) = p5 + d; 





2 和 第 4 像素 (F) 


的 滤波 算法 [C7] (2006 SMPTE) 


[ILIV 
LI 


第 8、 第 16,… 
EHR 


CC 
LLIBIDIDUU 


so) 
N 


第 9、 第 17,… 
TER 


K 8.18 两 条 垂直 边界 线 环 路 滤波 的 例子 [C2] (2004 Elsevier) 
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由 于 复制 过 来 一 个 已 经 滤波 的 参考 帧 。 
8.5.5 ”动态 分 辩 率 的 改变 


动态 分 状 率 改变 是 指 主 档 次 中 通过 语法 元 素 RESPIC (图 像 分 辨 率 ，2bit) 用 
因数 2 缩放 编码 帧 大 小 ， 以 及 在 高 级 档次 人口 点 首部 中 通过 传输 的 编码 大 小 的 语法 
元 素 用 一 个 任意 的 缩放 因数 缩放 编码 帧 大 小 。MULTIRES (多 分 辨 率 ) 标志 指示 帧 
是 否 可 在 比 规定 帧 分 辩 率 更 低 的 分 辨 率 上 进行 编码 。 分 辩 率 改变 应 该 只 允许 在 工 帧 
上 进行 。 如 果 MULTIRES ==1， 那 么 帧 级 语法 元 素 RESPIC 就 会 出 现 ， 它 给 出 了 这 
一 帧 的 分 辨 率 。RESPIC 可 以 出 现在 1 和 P 帧 中 。 如 果 它 出 现在 P 帧 首部 ， 那 么 
RESPIC 语法 元 素 与 前 面 最 近 的 I1 帧 的 RESPIC 相同 。 换 言 之 ， 所 有 的 P 帧 以 与 前 面 
最 近 的 1 帧 相同 的 分 辨 率 进行 编码 。 在 B 帧 的 情况 中 ,分辩 率 等 于 两 个 参考 帧 的 分 
HEK, WMR RESPIC 指示 了 下 采样 分 辨 率 ， 那 么 新 一 帧 的 维 数 计 算 如 网 8. 19 所 示 。 
如 果 解 码 帧 是 下 采样 分 辩 率 之 一 ,那么 它 在 显 式 之 前 会 被 上 采样 到 完整 的 分 辨 率 。 














X = 16 * ((CodedWidth + 15) / 16) 
Y = 16 * ((CodedHeight + 15) / 16) 
x = new horizontal resolution 

y = new vertical resolution 


hscale = horizontal scaling factor (0 = full resolution, 1= half resolution) 
vscale = vertical scaling factor (0 = full resolution, 1= half resolution) 


x=X 
y=Y 
if (hscale == 1) 
{ 
x=X/2 
if ((x & 15) !=0) 
x=x+16—-(x & 15) 
} 
if (vscale == 1) 
{ 
y=Y/2 
if (y & 15) !=0) 
y=y+16-(y & 15) 





图 8. 19 下 采样 多 分 辨 率 中 帧 维 数 的 计算 [C7] (2006 SMPTE) 


8.5.6 Bi 


B 帧 的 出 现 由 序列 层 中 的 语法 元 素 MAXFRAMES 指出 。 如 果 MAXBFRAMES >0, 





那么 就 会 出 现 奉 干 B 帧 。 帧 类 型 可 以 是 P、I、B BI, WX 8.10 所 定义 。 如 采 
PTYPE 等 于 B 帧 ， 那 么 就 会 定义 B 帧 分 数 (BFRACTION) 值 。BFRACTION 给 出 
一 个 分 数 ， 它 可 能 在 一 个 0 和 1 之 间 的 分 数值 有 限 集合 中 取 值 ， 表 示 其 锚 定 帧 形成 
EET TA] fa] Ba PY B 帧 的 相对 时 间 位 置 。 这 样 分 数值 就 是 一 个 表 8. 10 中 的 缩放 因子 ， 
它 将 用 于 缩放 相同 位 置 上 的 运动 矢量 来 获得 “直接 ”运动 矢量 。 


表 8.10 在 0 和 1 之 间 的 BFRACTION 值 [C7] 

















BFRACTION VLC 分 数 BFRACTION VLC 分 BX 
000b 1/2 1110101b 2/7 
001b 1/3 1110110b 3/7 
010b 2/3 1110111b 4/7 
011b 1/4 1111000b 5/7 
100b 3/4 1111001b 6/7 
101b 1/5 1111010b 1/8 
110b 2/5 1111011b 3/8 

1110000b 3/5 1111100b 5/8 
1110001b 4/5 1111101b 7/8 
1110010b 1/6 1111110b Reserve 
1110011b 5/6 1111111b Blpictur 
1110100b 1/7 


(2006 SMPTE) 


WARP FRE WT CT BP Wt) 被 编码 为 一 个 跳 过 帧 ， 那 么 它 被 当 作 一 个 了 帧 来 
处 理 。 在 此 情况 下 ， 两 个 锚 定 帧 对 于 介入 其 中 的 B 帧 都 是 相同 的 。 例 如 ， 如 果 帧 
按 如 下 显示 顺序 进行 编码 . 

10 B1 P2 B3 P4 B5 S6 (10 P2 B1 P4 B3 S6 BS 按 编码 顺序 ) 其 中 $6 是 跳 过 帧 ， 
那么 这 实际 上 处 理 为 . 

10 B1 P2 B3 P4 B5 P4, 

跳 过 帧 的 运动 矢量 设置 为 零 ， 晶 运动 矢量 的 计算 基于 来 自 后 续 锁 定 帧 和 预定 义 
缩放 逻辑 ， 叫 作 直 接 模式 运动 矢量 。 如 果 相 同位 置 的 宏 块 是 帧 内 编码 的 ， 那 么 直接 
模式 运动 矢量 设置 为 (0，0) 。 

迄今 为 止 ,已 经 讨论 了 只 在 帧 层 里 面 主 档次 的 B 帧 出 现 的 显著 更 新 。 进 一 步 
的 更 新 在 随后 的 宏 块 层 中 。 

8. 5.7 ” 自 适应 宏 块 量化 

对 于 主 档 次 和 高 级 档次 引入 了 增强 的 宏 块 量化 方法 。 在 主 档次 中 ， 仪 仅 使 用 渐 
进 模式 ， 而 在 高 级 档次 中 则 定义 了 隔行 模式 。 浙 进 模式 表明 逐 帧 进行 编码 ， 而 隔行 
模式 表明 或 者 按 帧 或 者 按 场 进行 编码 。 每 一 帧 可 编码 为 1 帧 ( 帧 内 编码 ) 编码 ，BI 
帧 〈 只 包括 帧 内 容 块 的 B 帧 ) ，P 帧 〈 前 向 预测 编码 ) ， 跳 过 帧 ,或 B 帧 (前 向 和 
































ar = 
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后 回 预 测 编码 ) 。I 帧 中 的 所 有 宏 块 都 是 帧 内 编码 的 。P 帧 的 宏 块 可 以 进 
码 或 者 帧 间 编 码 ， 取 决 于 局 部 特性 。 同 样 的 原则 适用 于 B 帧 。 

宏 块 层 的 首部 相应 于 它 的 编码 模式 ， 见 表 8. 11。 
编码 块 模式 (CBPCY) 和 宏 块 层 中 允许 或 不 允许 CACPRED) WRH 
高 级 档次 ， 
波 。MQDIFF 给 出 宏 块 量化 右 的 差分 值 ; 





行 帧 内 编 


渐进 帧 编码 模式 中 的 工 帆 包括 
页 测 | 。 
OVERFLAGMB 用 于 指明 是 否 要 对 相 邻 块 之 间 的 边缘 像素 执行 重 琶 滤 
ABSMQ 是 宏 块 量化 絮 的 绝对 值 ， 


对 于 





Ah 意思 是 
MQUAT 等 于 ABSMQ 。 
表 8.11 宏 块 层 的 首部 
帧 模式 ” 帧 / 场 ” 帧 类 型 宏 块 首部 附 注 
渐进 帧 I (BI) CBPCY, ACPRED 
CBPCY, ACPRED, OVERFLAGMB, MQDIFF, ABSMQ 高 级 档次 
P MVMODEBIT, SKIPMBBIT, MVDATA, HYBRIDPRED, ACPRED, 1MV 模式 
CBPCY, MQDIFF, ABSMQ, TTMB 
MVMODEBIT, SKIPMBBIT, CBPCY, BLKMVDATA, MVDATA, 4MV 模式 
HYBRIDPRED, MQDIFF, ABSMQ, ACPRED, TTMB 
B MVMODEBIT, SKIPMBBIT, CBPCY, BLKMVDATA, MVDATA, 
HYBRIDPRED, MQDIFF, ABSMQ, ACPRED, TTMB 
隔行 iby I (BI) FIELDTX, CBPCY, ACPRED, OVERFLAGMB, MQDIFF, ABSMQ 
P SKIPMB, MBMODE, FIELDTX, CBPPRESENT, CBPCY, ACPRED, WiN 24% 
MQDIFF, ABSMQ 
SKIPMB, MBMODE, CBPCY, 2MVBP/4MVBP, MVDATA, MQDIFF, 帧 间 宏 块 
ABSMQ, TTMB 
B SKIPMB, MBMODE, FILEDTX, CBPPRESENT, CBPCY, ACPRED, 帧 内 究 块 
MQDIFF, ABSMQ 
SKIPMB, MBMODE, DIRECTBBIT, BMVTYPE, MVSW, CBPCY, _ wil] ie 
2MVBP/4MVBP, MVDATA, MQDIFF, ABSMQ, TTMB 
Y 1 (BI) CBPCY, ACPRED, OVERFLAGMB, MQDIFF, ABSMQ 


P MBMODE, MQDIFF, ABSMQ, ACPRED, CBPCY 


TTMB 


TTMB 





B MBMODE, MQDIFF, ABSMQ, ACPRED, CBPCY 
MBMODE, FORWARDBIT, BMVTYPE, 
BMV2, CBPCY, MQDIFF, ABSMQ, TTMB 


MBMODE, FORWARDBIT, BMVTYPE, 


MBMODE, MVDATA, HYBRIDPRED, CBPCY, MQDIFF, ABSMQ, 


MBMODE, MVDATA, HYBRIDPRED, CBPCY, MQDIFF, ABSMQ, 


INTERPMVP, BMV1, 


INTERPMVP, BMV1, 


thot fia] Ze 
IMV AER 


AMV 宏 块 


thot PZ Be 
IMV ER 


AMV 宏 块 


BMV2, CBPCY, MQDIFF, ABSMQ, TTMB 


* 高 级 档次 支持 隔行 模式 


218 ”视频 编码 全 角度 详解 





ACPRED 是 个 1 比特 的 语法 元 素 ， 出 现在 所 有 的 工 帧 和 BI 帧 宏 块 以 及 P 帧 和 
B 帧 的 帧 内 编码 的 宏 块 中 。 如 果 ACPRED ==1, 那么 交流 系数 预测 用 于 8 x8 的 
块 。 解 码 块 顶 行 或 最 左 列 的 交流 系数 被 视 为 预测 块 相应 的 行 或 列 系 数 的 差分 值 ， 
如 图 8. 20 所 示 。 对 每 个 块 ， 直 流 预测 需 所 选 的 方 回 会 被 用 于 交流 预测 器 。 紧 邻 的 
上 方 / 左 侧 块 中 交流 系数 的 首 行 / 列 用 作 当 前 块 交 流 系 数 首 行 / 列 的 预测 器 。 如 果 在 
预测 方向 上 不 存在 块 ， 例 如 网 像 边界 ， 那 么 7 个 系数 的 预测 值 都 设置 为 零 。VC-1 
采纳 了 一 种 简单 的 一 阶 预测 器 。 
























LI DTTTTTTI 
TT DT 
BERR eee 
TT eee 
| Tiiii 
| riiii 
TT Ti 
PET TTP Ee ETT ET TE |) OCCO 
上 方 预测 左 侧 预 测 





图 8. 20 ”上 方 或 左 侧 的 交流 预测 系数 [C7] (2006 SMPTE) 








Æ P W, MVMODEBIT H FEE TEJRE (如 果 MVMODEBIT ==0, IBA 
1 个 运动 矢量 。 如 果 MVMODEBIT ==1, 那么 4 个 运动 矢量 。) SKIPMRBIT 指示 安 
块 是 否 被 跳 过 。MVDATA 只 在 SKIPMBBIT ==0 (不 跳 过 ) 是 出 现 。HYBRIDPRED 
是 个 每 个 运动 矢量 1 比特 /的 语法 元 素 ， 指 示 要 用 哪 一 个 运动 矢量 预测 器 。 最 终 的 
运动 矢量 通过 组 合 顶 部 (MA) 和 /或 左 侧 EC) 的 运动 矢量 得 到 。 跳 
过 的 宏 块 会 有 HYBRIDPREFD ， 标 识 着 去 解码 宏 块 的 运动 矢量 。 


8.5.8 亮度 补偿 


对 于 主 档次 ， 亮 度 补偿 由 了 帧 首部 的 语法 元 素 MVMODE 给 出 。 如 果 MVMODE == 
0001b， 承 执 行 亮 度 补 偿 。 如 有 果 指 示 了 亮度 补偿 ， 那 么 MVMODE2 LUMSCALE 和 
LUMSHIFT 语法 元 素 随 后 出 现在 帧 层 。P 帧 中 出 现 MVMODE2 是 为 了 实现 不 同类 型 
MV 模式 的 亮度 补偿 。 为 MVMODE2 定义 的 VLC 人 码 表 取决 于 PQUANT 的 值 。 四 种 
不 同 的 模式 是 1-MV、 混 合 MV、1MV- 半 像素 、 和 1MV- 半 像素 - 双 线 性 模式 。 如 果 
MVMODE 指示 亮度 补偿 ， 为 了 建立 用 于 重新 映射 参考 帧 像素 的 查找 表 ， 还 定义 了 
LUMSCALE 和 LUMSHIFT， 如 图 8.21 所 解释 的 那样 。 人 参考 帧 的 Y 分 量 用 LUTY [ | 
表 重 新 映射 ， 而 Cb 和 Cr 分 量 用 LUTUV | ] 表 来 重新 映射 。 
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if (LUMSCALE == 0) 
{ 
iScale = —64; 
iShift = 255 * 64-LUMSHIFT *2 * 64; 
if (LUMSHIFT > 31) 
iShift += 128 * 64; 
} 
else { 
iScale = LUMSCALE + 32; 
if (LUMSHIFT > 31) 
iShift = LUMSHIFT * 64-64 * 64; 
else 
iShift = LUMSHIFT * 64; 
} 
// build LUTs 
for G = 0; i< 256; i++) 
{ 
j = Scale * i + iShift + 32) >> 6; 
if (j > 255) 
j= 233; 
else if (j < 0) 
j=0; 
LUTY[i] =j); 
j= Scale * G—128) + 128 * 64 + 32) >>6; 
if (j > 255) 
] = 253. 
else if (j < 0) 
j=0; 
LUTUVD =]; 





图 8.21 亮度 补偿 的 查找 表 计 算 [C7] (2006 SMPTE) 


8.5.9 ”范围 调节 


如 果 序 列 级 的 RANGERED 标识 设置 为 1， 而 且 通 过 高 级 档次 中 的 语法 元 素 
RANGE_MAPY 和 RANGE_MAPUV 进行 范围 映射 ， 那 么 范围 调节 是 指 通过 主 档次 
的 RANGEREDFRM 语法 元 素 用 因数 2 来 减 小 范围 。 如 果 RANGERREDFRM = = 1， 
就 对 帧 减 小 范围 。 对 于 一 个 B 帧 或 BI wi, RANGERREDFRM 的 值 等 于 显示 顺序 中 
随后 销 定 帧 的 相应 值 。 

如 果 RANGEREDFRM ==1， 编 码 需 的 像素 要 缩小 ， 解 码 需 的 像素 要 放大 ， 
保证 当前 重建 帧 具有 原始 范围 。 当 前 1 和 了 P 帧 解码 的 放大 过 程 按 照 下 列 公式 
执行 : 

Y| n] =clip((Y¥[n] -128) *2 +128); 
|n] =clip((C,[n] -128) *2 +128); (8. 16) 
C.[n] =clip((C.[n] -128) *2 +128); 
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8.6 ”高 级 档次 


8. 6.1 比特 流 结构 


VC-1 解码 需 用 发 送 自 编码 器 的 元 数据 初始 化 它 的 解码 过 程 。 高 级 档次 的 序列 
层 数据 结构 如 表 8. 12 所 定义 ， 它 开始 于 码 值 0xC5 ， 后 接 知 干 编码 帧 和 相关 参数 。 
高 级 档次 的 STRUCT_C 包括 且 只 保留 PROFILE (4bit) 信息 。 其 他 参数 都 在 后 来 的 
层 中 定义 : 入口 点 层 和 帧 层 。STRUCT_A 包括 8 个 连续 的 零 字 节 。STRUCT_C 包括 
LEVEL、CBR、 一 些 保留 比特 和 FRAMERATE。 








表 8.12 高 级 档次 的 序列 层 数据 结构 [C7] 

31 ~24 (1B) 23 ~0 (3B) 
0xC5 (8B) NUMFRAMES (24bit) 
0x00000004 (4B) 
STRUCT_C 包括 PROFILE (4bit) and Reserved7 (28bit) 
STRUCT_A 包括 8 个 连续 的 零 字 节 
0x0000000C (4B) 
STRUCT_B 包括 LEVEL (3B), CBR (1bit), RESI (4bit) RES2 (56bit), FRAMERATE (4B) 








(2006 SMPTE) 


8.6.2 ”隔行 扫描 


一 帧 包含 一 个 视频 信号 空间 信息 的 所 有 行 。 对 于 渐进 式 视频 ， 这 些 包 含 样 值 的 
行 从 一 个 时 刻 开 始 持 续 经 过 连续 的 多 行 一 直到 达 帧 底 。 对 于 隔行 视频 ， 一 个 场 是 一 
帧 各 个 交替 出 现 的 行 的 组 合 。 因 而 ， 一 帧 包括 两 个 场 ， 顶 场 和 底 场 。 在 隔行 场 编 码 
模式 中 ， 隔 行 帧 的 两 个 场 单独 编码 。 在 隔行 帧 编码 模式 中 ， 隔 行 帧 的 两 个 场 一 起 
编码 。 

如 果 序 列 级 别 1bit 的 语法 元 素 INTERLACE 设 定 为 1， 那 么 后 续 帧 进行 隔行 编 
码 。 在 帧 屋内， 给 出 了 大 小 可 变 的 元 素 一 一 帧 编码 模式 (FCM, Frame Coding 
Mode), 来 表明 帧 编码 为 渐进 式 、 隔 行 场 式 还 是 隔行 帧 式 。UV 采样 格式 
(UVSAMP) 是 个 1bit 的 语法 元 素 ， 当 序列 级 别 的 域 INYERLACE ==1 时 它 只 出 现 
在 所 有 的 高 级 档次 的 帧 首部 中 。 如 果 UVSAMP ==1， 那 么 使 用 色差 分 量 的 渐进 式 
亚 采 样 。 如 有 果 UVSAMP ==0, 那么 使 用 色差 分 量 的 隔行 式 亚 采 样 。 帧 类 型 
(PTYPE) 或 场 类 型 (FTPYE) 给 出 当前 帧 的 重建 : 1, P, B, BI, YI, VP, P/I, 
P/P, B/B, B/BI, BI/B 或 BI/BI, 

在 隔行 场 图 像 中 ， 帧 首部 中 的 顶 场 优先 (TFF，Top- Field First) 语法 元 素 指出 

















两 个 场 的 时 间 顺 序 。 如 果 TFF == 1, 
顶 场 。 在 编码 一 帧 的 第 一 


第 
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一 个 场 是 顶 场 。 如 果 TFF ==0, 第 二 个 场 是 


Se RET 能 用 作 参 考 。 超 出 参考 








帧 边界 的 像 系 通过 边 绿 像素 的 复制 填充 来 生成 。 这 是 因为 运动 补偿 的 运动 矢量 可 能 
会 给 出 参考 帧 边界 之 外 的 像素 位 置 。 图 8. 22 给 出 了 水 平 /垂直 、 渐 进 / 隔 行 、 和 帧 / 


场 像 素 填 充 。 因 而 ， 顶 场 应 该 被 填充 。 


当 第 二 个 场 使 用 参考 帧 的 第 二 个 场 作为 参考 





时 ， 如 同 阳 行 帧 的 情况 那样 执行 像素 复制 。 其 他 位 置 诸如 确 行 或 右 列 以 类 似 方式 进 


行 填充 。 








28282828 | 28 32 36 3341... 
++» 33333333 |33 32444640... 
... 38 38 38 38 |38 37 32 3844... 
...43 43.43 43 | 43 3935 41 38... 


水 平 渐进 式 








...28282828 |28 32363341... 
ee XK KX KL K x x x X. 
--+ 38383838 13837323844... 
wee X XK KIX KX KK X... 


水 平 隔行 扫描 场 








28 32 36 3341... 28 32 36 3341... 
28 32 36 3341... 33 3244 4640... 
28 32 36 3341... 
33 3244 4640... 






38 3732 3844... 
43 3935 4138... 





垂直 渐进 式 垂直 隔行 扫描 帧 





28 32363341... 
Xx KX Xx Kee 
28 32363341... 
xxx xXx xX... 








28 32363341... 
X XXX Keer 
38 3732 3844... 
xX KK Kae 


垂直 隔行 扫描 场 


图 8.22 超 界 的 复制 填充 示例 [C7] (2006 SMPTE) 


一 个 隅 和 


MÍT P 场 图 像 或 者 参考 一 个 或 两 个 以 前 解码 的 场 。 帧 层 中 语法 元 素 参 考 


数目 (NUMREF) 是 一 个 1bit 的 语法 元 素 ， 指 出 当前 场 参 考 一 个 还 是 两 个 以 前 的 


参考 场 图 像 。 如 果 NUMREF == 1 ， 





那么 当前 隔行 P 场 图 像 参 考 时 间 上 最 近 ( 按 显 


示 顺 序 ) 的 1 或 P 场 图 像 ， 如 图 8.23 所 示 。 如 果 NUMREF ==0， 那么 当前 隔行 P 


场 图 像 参 考 一 个 场 。 在 此 情况 下 ， 


语法 元 素 参 考场 指示 器 (REFFIELD) 跟随 帧 层 


比特 流 中 的 语法 元 素 NUMREF,。 语法 元 素 REFFIELD 是 个 1bit 的 语法 元 素 ， 它 指出 
哪 一 个 解码 的 场 用 作 参 考 。 如 果 REFFIED ==0， 那 么 时 间 上 最 近 (显示 顺序 ) 的 
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I 或 P 场 用 作 参 考 。 如 果 REFFIELD ==1， 那 么 第 二 最 近 的 1 或 P 场 图 像 用 作 参 考 。 


底 场 顶 场 











时 间 顺 序 











—~<—e NUMREF=1 


EN — e NUMREF=0& 
5 REFFIELD=0 
L <> NUMREF=0& 


REFFIELD=1 





时 间 顺 序 
图 8.23 有 B 帧 (上 ) AeA BL (下 ) 的 两 个 参考 





隔行 场 图 像 示 例 [C2] (2004 Elsevier) 


使 用 B 帧 时 ， 前 向 帧 和 后 向 帧 都 用 作 运动 补 偿 的 参考 。 使 用 B 场 时 ， 第 一 个 也 
场 可 被 用 作 第 二 个 正 被 解码 B 场 的 参考 。 例 如 ， 如 果 第 一 个 解码 的 场 是 项 场 ， 那 
么 那 幅 图 像 的 底 场 就 使 用 顶 场 作为 运动 补偿 的 参考 。 这 是 用 相反 极 性 (原文 : op- 
posite polarity 译 者 注 ) 预测 的 情况 。 通 过 作为 同 极 性 场 的 前 锚 定 帧 的 第 二 场 以 
及 从 下 一 个 锚 定 帧 的 第 一 和 第 二 场 可 做 出 进一步 的 预测 。NUMREF 和 随后 的 REF- 
FIELD 不 出 现在 B 场 图 像 中 ， 因 为 B 场 总 是 用 总 共 4 〈 前 向 的 顶 场 和 底 场 ， 后 向 的 
顶 场 和 底 场 ) 个 参考 场 来 预测 当前 宏 块 。 


8.6.3 ”序列 级 的 用 户 数 据 


只 有 高 级 档次 支持 用 压缩 比特 流 携 带 带 内 用 户 数 据 (元 数据 )。 在 简单 档次 和 
主 档次 中 ， 与 序列 相关 的 元 数据 可 被 运输 层 或 其 他 途径 传递 到 解码 器 。 请 参考 
8.4. 1 节 。 在 高 级 档次 中 ， 序 列 相 关 的 元 数据 是 视频 数据 比特 流 的 一 部 分 ， 这 部 分 
简要 描述 了 其 语法 和 语义 。 

用 户 数 据 是 一 种 允许 携带 数据 的 设施 ， 该 数据 能 提供 必要 的 额外 的 用 户 特征 。 
它 能 被 用 于 字幕 文 持 ， 例 如 [C4]。 用 户 数 据 作 为 比特 流 数据 单元 (BDU, Bits- 
tream Data Units) 进行 传输 ， 可 被 包括 在 序列 比特 流 、 入 口 点 、 帧 、 场 、 或 分 片 
层 。 用 户 数据 的 起 始 码 (每 一 层 的 值 0x0000011B ~ 0x0000011F) 后 接 用 户 数据 标 
识 符 ， 它 是 一 个 定 长 (32bit) 的 语法 元 素 ， 显 示 出 SMPTE 注册 的 用 户 数据 类 型 。 
然后 传送 奋 干 字 节 的 用 户 数据 ， 并 加 上 flushing byte (0x80) 。 
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序列 级 别 的 用 户 数 据 位 于 序列 首部 之 后 起 始 码 之 前 的 比特 流 中 ， 起 始 码 表明 下 
一 个 比特 流 数据 单元 的 开端 。 图 8. 24 给 出 了 序列 起 始 码 (SEQ_SC) 和 序列 首部 
(SEQ_HDR) 之 后 的 用 户 数据 起 始 码 (UD_SC) 和 用 户 数 据 (UD_DAT) 两 种 可 能 
的 位 置 。 上 面 的 比特 流 描述 了 下 一 个 BDU 是 一 个 人口 点 起 始 码 (ENTRY_SC) 后 
接 一 个 入 口 点 首部 (ENTRY_HDR) 的 情况 ， 而 下 面 的 比特 流 描 述 了 下 一 个 BDU 
是 一 个 帧 起 始 码 (FRM_SC) 后 接 一 个 帧 数据 (FRM_DAT) 的 情况 。 


SEQ_SC SEQ_HDR| UD sc UD_DAT] ENTRY_SC |ENTRY_HDR|FRM_SC| FRM_DAT 





b) 


图 8.24 序列 级 用 户 数据 的 两 种 可 能 的 位 置 [C7] (2006 SMPTE) 


8.64 ADAB 


在 高 级 档次 中 ， 一 个 序列 包含 一 个 或 多 个 入 口 点 片段 ， 每 个 入 口 点 片段 包含 一 
系列 帧 ， 每 个 入 口 点 片段 的 第 一 帧 提供 随机 访问 。 一 帧 可 分 为 多 个 宏 块 。 一 个 分 片 
包含 一 个 或 多 个 连续 的 宏 块 行 。 入 口 点 和 分 片 层 只 出 现在 高 级 档次 中 。 每 个 入口 点 
层 片段 的 开头 指明 了 一 个 随机 访问 点 。 在 简单 档次 和 主 档次 中 ， 每 个 工 帆 是 一 个 随 
机 访问 点 。 


8.6.5 显示 元 数据 


VC-1 流 包含 的 元 数据 不 用 于 解码 过 程 ， 而 是 传递 到 提供 显示 的 过 程 用 于 采样 
的 视频 格式 、 样 本 纵横 比 、 颜 色 空 间 等 等 。 例 如 ， 解 码 过 程 的 帧 率 可 能 低 于 目标 显 
示 帧 率 。 在 高 级 档次 序列 首部 中 ,包含 了 帧 率 的 域 。 首 先 ，FRAMERATE_FLAG 和 
DISPLAY_EXT 设置 为 1 以 定义 显示 帧 率 。 然 后 通过 FRAMERATEEXP (16 比特 ) 
用 帧 率 指示 参数 (FRAMERATEIND ) 来 显 式 地 (如 果 FRAMERATEIND ==1) 定 
义 帧 率 ， 或 者 通过 FRAMERATENR (分 子 ) 和 FRAMERATEDR (分 母 ) 隐 含 地 
(如 果 FRAMERATEIND ==0) 定义 。 

当 给 出 下 拉 (PULLDOWN ==1) 信号 时 ， 解 码 帧 可 由 一 个 2bit 的 语法 元 素 
RPTFRM 进行 重复 显 式 。 例 如 ， 一 个 24 Wis 的 压缩 比特 流 服 务 于 60 Wis 的 渐进 
显示 ，RPTFRM 对 于 连续 帧 在 1 和 2 之 间 交 替 取 值 ， 然 后 分 别 显示 以 2 或 3 个 帧 周 
期 显示 帧 。 请 注意 ，24 ~ 60 的 帧 率 转换 在 MPEG-2 标准 中 叫 作 3:2 下 拉 。 当 一 个 
序列 服务 于 隔行 显示 时 ， 一 对 场 的 第 一 场 可 能 要 重复 一 一 这 样 就 把 场 对 ( 帧 ) 的 
持续 时 间 扩 展 到 了 三 个 场 显示 周期 。 

在 所 有 的 档次 所 有 的 渐进 帧 类 型 中 ，INTERPFRM 是 一 个 1bit 的 语法 元 素 。 这 
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个 比特 不 用 在 解码 过 程 。 它 的 目的 是 给 显示 过 程 提 供 一 个 提示 ， 提 示 当 前 时 间 域 适 
合 进行 时 间 插 值 。 如 果 INTERPFRM ==1， 那 么 时 间 域 适合 帧 插值 例如， 显示 过 
程 可 用 内 插 法 来 提高 显示 帧 率 。 如 果 INTERPFRM ==0， 那 么 当前 时 域 ( 当前 帧 及 
其 周围 的 帧 ) 就 不 适合 帧 内 插 。 对 于 差错 恢复 (取代 丢失 的 帧 ) 或 者 降低 带宽 
(编码 更 少 的 帧 以 及 内 插 到 较 高 帧 率 来 显示 ) ， 这 个 比特 是 有 用 的 。 

在 高 级 档次 中 ， 编 码 帧 的 宽度 和 高 度 可 能 在 入 口 点 首部 或 序列 首部 改变 ， 而 在 
简单 档次 / 主 档次 中 ， 帧 大 小 从 数据 元 素 HORIZ_SIZE 和 VERT_SIZE 中 导出 。 序 列 
首部 域 MAX_CODED_WIDTH 和 MAX_CODED_HEIGHT 指出 一 个 序列 中 最 大 的 编 
码 帧 大 小 ， 入 口 点 首部 域 CODED_WIDTH 和 CODED_HEIGHT 指出 入 口 点 层 中 改变 
后 的 帧 大 小 。 当 目标 显示 大 小 不 同 于 编码 帧 大 小 时 ， 序 列 首部 就 会 使 用 域 DISP_ 
HORIZ_SIZE 和 DISP_VERT_SIZE。 样 本 纵横 比 可 在 高 级 档次 中 由 ASPECT_RATIO 
域 来 定义 。 例 如 ， 如 果 显 示 大 小 是 720 像素 宽 480 像素 高 ， 且 使 用 了 10:11 (5: 

高 ) 的 样本 纵横 比 ， 那 么 表示 4:3 几何 形状 的 帧 的 实际 区 域 就 会 是 704 像素 宽 480 
像素 高 (480 x 4/3 x 11/10 =704) 。 抒 摄 (原文 : pan 一 一 详 者 注 ) 扫描 区 域 是 显 
示 区 域 的 一 个 子 区 域 ， 例 如 在 16: 9 显示 器 上 的 4:3 子 区 域 。 如 果 入 口 点 首部 语法 
JGZ PANSCAN_FLAG == 11， 那么 在 高 级 档次 帧 首部 中 要 给 出 指示 。 在 此 情况 下 ， 
帧 首部 具有 PS_PRFSENT。 如 果 它 被 设置 为 1， 那么 就 用 四 个 语法 元 素 PS_HOFF- 
SET, PS_VOFFSET, PS_WIDTH 和 PS_HEICHT 来 定义 帧 内 窗口 的 大 小 和 位 置 。 

当 序 列 级 标识 POSTPROCFLAG ==1 指示 四 种 后 人 处理 模式 (无 后 处 理 ， 去 块 效 
应 ， 去 振 铃 ， 和 去 块 效应 且 去 振 铃 ) 时 ,一 个 2bit 的 语法 元 素 POSTPROC 出 现在 
高 级 档次 的 所 有 帧 内 。 序 列 首部 的 后 处 理 量化 帧 率 (FRMRTQ_POSTPROC) 和 后 
处 理 量化 比特 率 (BITRTQ_POSTPROC) 为 解码 兹 提供 信息 ， 以 便于 解码 兹 可 以 估 
计 这 个 序列 去 块 效应 和 去 振 铃 操作 的 运算 复杂 度 。 这 一 估计 与 后 处 理 需 计算 能 力 信 
县 的 结合 ， 可 被 解码 硕 用 于 决定 是 否 局 用 或 关闭 POSTPROC 指出 的 去 块 效 应 和 去 
振 铃 操作 









































8.7 H. 264 到 VC-1 的 转 码 


视频 转 码 是 一 个 把 视频 从 一 种 格式 到 男 一 种 格式 转换 的 操作 。 这 一 格式 转换 包 
含 一 系列 的 操作 ， 例 如 降低 比特 率 、 从 一 种 压缩 格式 到 另 一 种 的 转换 、 改 变 视 频 容 
全 格式 或 改变 站 部 摘 述 及 其 他 。 除 了 这 个 基本 的 格式 转换 之 外 ， 转 人 码 右 还 可 被 用 做 
其 他 功能 ， 诸 如 压缩 视频 编码 参数 的 调整 、 空 间 和 时 间 分 辨 率 转换 、 和 插入 新 信息 
诸如 数字 水 印 或 公司 徽标 甚至 是 增强 的 差错 恢复 信息 [ T3 ] 。 

最 简单 的 转 码 结构 是 将 解码 天 和 编码 融 直 接 级 联 起 来 ， 如 图 8. 25 所 示 。 在 此 
结构 中 ,输入 的 源 视频 流 Vi, 彻底 解码 然后 再 编码 为 具有 想 要 的 比特 率 或 格式 的 目 
标 视频 流 广 ， 转 码 过 程 不 引入 任何 明显 的 视觉 质量 下 降 。 这 类 实现 涉及 输入 压缩 
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' VLC : 变 长 编码 

| VLD : 变 长 解码 
全 G : 信 源 的 逆 量 化 
'O, :目标 的 量化 

| Or! :目标 的 逆 量 化 
| DCT : 离散 余弦 变换 
| IDCT : 3@DCT 

'R Seb 

! ME :运动 估计 

' MC :运动 补偿 











图 8.25 编码 需 和 解码 需 级 联 模型 [T3] (2005 IEEE) 
a) 块 级 框图 b) 详细 框图 


视频 流 的 彻底 解码 和 重新 编码 。 它 必须 在 重新 编码 之 前 进行 彻底 的 解码 然后 调整 解 
人 码 序列 的 大 小 和 重 排序 。 由 于 需要 完整 的 重新 编码 操作 ， 需 要 复杂 的 帧 重 排序 和 完 
整 太 度 的 运动 估计 。 因 而 ， 人 们 开展 了 许多 研究 工作 来 降低 复杂 度 负担 同时 保持 编 
码 性 能 [C5, C24], FEDRE H. 264 和 VC-1 之 间 的 转 码 。 假 定 所 考虑 的 档次 限 
F H. 264 的 基本 档次 和 VC-1 的 简单 档次 ,编码 参 数 诸 如 帧 内 / 帧 间 宏 块 模式 、 运 
动 矢 量 、 参 考 帧 和 跳 过 宏 块 需要 被 分 析 和 相互 比较 。 


8.7.1 帧 内 编码 宏 块 模式 映射 


当 H. 264 比特 流 中 的 一 个 帧 内 编码 宏 块 编码 为 一 个 VC-1 帧 内 编码 宏 块 时 ， 
H. 264 帧 内 编码 宏 块 可 被 编码 为 内 部 的 4x4 (9 个 不 同方 向 模式 ) 块 或 内 部 16 x 
16 (4 个 不 同 模式 ) BR, 但 一 个 VC-1 帧 内 编码 宏 块 有 四 个 8 x8 块 且 没有 预测 模 
式 。 既 然 VC-1 的 帧 内 编码 安 块 使 用 8 x8 变换 ， 那 么 我 们 不 考虑 H. 264 的 块 大 小 
(16 x16 或 4x4) ， 就 不 必 保 持 H. 264 帧 内 预测 类 型 信息 。 表 8. 13 给 出 了 提出 的 
帧 内 编码 宏 块 映 射 方案 。 


表 8.13 H. 264 和 VC-1 帧 内 编码 宏 块 映射 方案 [C29] 





























H. 264 帧 内 编码 宏 块 VC-1 帧 内 编码 宏 块 
帧 内 编码 的 16x16 宏 块 (任意 模式 ) 帧 内 编码 的 8 x8 宏 块 
帧 内 编码 的 4x4 宏 块 〈 任 意 模 式 ) 帧 内 编码 的 8 x8 宏 块 





















































8.7.2 帧 间 编 码 安 块 模式 映射 方案 


H. 264 的 帧 间 编 码 安 块 有 7 种 不 同 的 运动 补偿 块 大 小 一 一 16 x16, 16x8, 8x16, 
8x8, 4x8, 8x4, 4x4 (JIA 8.26), VC-1 的 帧 间 编 码 宏 块 只 有 2 种 不 同 的 运 
动 补偿 块 大 小 一 一 16 x 16 和 8 x8。 男 一 个 明显 的 差别 是 H. 264 使 用 4 x4 (ERE 
度 范围 扩展 这 的 8 x8) 的 变换 大 小 ， 而 VC-1 使 用 4 种 变换 大 小 一 一 8 x8, 4x8, 
8x4, 4x4, 通常，H. 264 所 选 的 16 x16 运动 补偿 块 是 针对 相对 均匀 的 区 域 , 不 
会 映射 到 VC-1 中 以 8 x8 为 变换 大 小 的 16 x16 宏 块 。 运 动 补偿 块 8 x16, 16 x8 具 
有 小 的 不 均匀 运动 ， 因 而 它们 映射 到 VC-1 中 的 帧 间 编 码 的 8 x8 块 ， 因 为 16 x16 
宏 块 的 大 小 会 由 于 不 均匀 运动 产生 较 差 的 质量 。 由 于 使 用 所 选 的 H. 264 块 大 小 作 
为 块 同 源 性 的 度量 ， 就 可 决定 VC-1 的 变换 大 小 并 加 以 应 用 。 换 言 之 ，H. 264 块 大 
小 决定 了 这 个 特定 块 所 用 的 变换 大 小 。 这 个 方法 不 需要 计算 确定 变换 大 小 的 每 个 
8 x8 块 的 半 和 值 与 半 差 值 。 
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图 8.26 上 自 适 应 ME/MC 预测 〈 七 个 块 大 小 ) 的 宏 块 和 亚 宏 块 分 割 ， 
带 有 运动 矢量 的 编码 块 按 光栅 扫描 顺序 进行 排序 (2010 IEEE) 








通常 H. 264 对 于 具有 不 均匀 运动 的 区 域 选 择 8 x8, 8x4, 8x8 和 4x4 模 式 。 
对 于 这 样 的 不 均匀 宏 块 ，VC-1 去 除了 16 x16 模式 。 因 为 H. 264 的 块 大 小 决定 了 
VC-1 要 用 的 变换 大 小 ， 那 么 宏 块 就 映射 到 VC-1 中 8 x8 大 小 的 块 。 表 8. 14 描述 
了 用 在 VC-1 中 的 帧 间 编 码 宏 块 和 变换 类 型 的 映射 决策 。 


表 8.14 H.264 和 VC-1 帧 间 编 码 宏 块 映射 与 VC-1 变换 类 型 [C29] 



































































































































H. 264 帧 间 编 码 宏 块 VC-1 帧 间 编 码 宏 块 VC-1 变换 大 小 
帧 间 编 码 16 x 16 帧 间 编 码 16 x 16 8x8 
帧 间 编 码 16 x8 帧 间 编 码 8 x8 8 x4 
帧 间 编 码 8 x 16 帧 间 编 码 8 x8 4x8 
帧 间 编 码 8 x 8 帧 间 编 码 8 x8 8 x8 
帧 间 编 码 4 x8 帧 间 编 码 8 x8 4x8 
帧 间 编 码 8 x 4 帧 间 编 码 8 x8 8 x4 
帧 间 编 码 4 x4 帧 间 编 码 8 x8 4x4 
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8.7.3 运动 矢量 映射 


重复 使 用 H. 264 用 过 的 运动 矢量 能 显著 降低 VC-1 编码 的 复杂 度 。 因 为 两 个 
标准 中 的 变换 编码 块 大 小 不 总 是 对 等 映射 ， 那 么 当 H. 264 宏 块 具有 多 于 一 个 运 
动 矢量 的 时 候 就 可 以 选择 运动 矢量 中 值 [C29]。 表 8. 15 描述 了 运动 矢量 的 选择 
情况 。 除 了 帧 间 编 码 16 x 16 和 帧 间 编 码 8 x8 模式 的 情况 ， 有 必要 从 若干 已 有 的 运 
动 矢 量 中 为 每 个 8 x8 块 选 择 一 个 运动 矢量 。 其 他 选择 运动 矢量 代表 的 组 合 也 是 可 
能 的 。 


























表 8.15 H.264 与 VC-1 帧 间 编 码 宏 块 运动 矢量 映射 [C29] 
H. 264 帧 间 编 码 宏 块 














VC-1 帧 间 编 码 宏 块 








运动 矢量 重用 决策 





































































































帧 间 编 码 16 x 16 帧 间 编 码 16 x 16 对 16 x16 块 ， 取 相同 的 运动 矢量 
帧 间 编 码 16 x8 帧 间 编 码 8 x 8 对 每 个 8 x8 块 ， 取 平均 运动 矢量 
帧 间 编 码 8 x 16 帧 间 编 码 8 x 8 对 每 个 8 x8 块 ， 取 运动 矢量 的 均值 
帧 间 编 码 8 x8 帧 间 编 码 8 x 8 对 每 个 8 x8 块 ， 取 相同 的 运动 矢量 
帧 间 编 码 4 x 8 帧 间 编 码 8 x 8 对 每 个 8 x8 块 ， 取 运动 矢量 的 中 值 
帧 间 编 码 8 x4 帧 间 编 码 8 x 8 对 每 个 8 x8 块 ， 取 运动 矢量 的 中 值 
帧 间 编 码 4 x4 帧 间 编 码 8 x 8 对 每 个 8 x8 块 ， 取 运动 矢量 的 中 值 





























8.7.4 参考 帧 


H. 264/ AVC 标准 对 于 运动 估计 定义 了 使 用 多 达 16 个 参考 帧 ， 而 VC-1 按照 分 
片 类 型 P 或 B 分 别 只 用 一 个 或 两 个 参考 帧 。 运 动 矢 量 的 重用 意味 着 使 用 相同 的 参 
考 帧 来 保持 它们 的 意义 。 如 果 我 们 假定 H. 264 基本 档次 〈 单 参考 帧 ) 和 VC-1 的 
简单 档次 〈 单 参考 帧 ) ， 那 么 可 以 使 用 作为 输入 比特 流 的 同样 的 参考 帧 ， 且 不 需要 
缩放 运动 矢量 。 
8.7.5 poe 


当 在 比特 流 中 指出 了 一 个 跳 过 宏 块 ， 那 么 就 不 会 发 送 那 个 宏 块 更 多 的 数据 。 
H. 264 中 跳 过 宏 块 到 VC-1 的 跳 过 宏 块 的 模式 转换 是 一 个 直接 的 前 向 过 程 。 因 为 两 
个 标准 对 于 跳 过 宏 块 的 定义 是 完全 兼容 的 ， 所 以 下 接 转 换 是 可 以 的 。 








8.8 VC-1 的 传输 


VC-1 的 基本 流 (ES, Elementary Stream) 可 被 封装 并 在 MPEG-2 标准 的 传输 
流 和 程序 流 中 指出 [S3 ] 。 传 输 流 (TS, Transport Stream) 规定 了 一 个 容 需 格式 封 
装 包 化 基 流 (PES, Packetized Elementary Streams) ， 并 具有 纠 错 和 流 同 步 化 特征 以 


228 ”视频 编码 全 角度 详解 





维护 信号 退化 时 传输 的 完整 性 。 程 序 流 (PS，Program Stream) #2 — 4 48 th ZK, 
用 于 复 用 数字 音频 、 视 频 和 高 可 靠 度 媒 体 如 光盘 。 

基本 流 由 访问 单元 组 成 (AU, Access Units) ， 该 单元 包括 所 有 的 帧 编码 数据 
和 填充 比特 ， 后 面 接续 下 一 个 AU 的 起 始 码 。 编 码 数据 单元 表示 一 个 视频 帧 ， 不管 
该 帧 被 编 为 渐进 模式 还 是 阳 行 渐进 模式 ,隔行 帧 隔行 模式 还 是 隔行 场 阳 行 模式 。 如 
有 果 该 帧 不 是 由 一 个 序列 起 始 码 、 序 列 首部 或 人 口 点 首部 开头 的 话 ， 那 么 AU 就 以 帧 
起 始 码 开头 。 否 则 ，AU 以 帧 起 始 码 之 前 的 这 些 结构 (排除 任何 填充 的 字 节 ) 的 第 
一 个 字 节 作为 开头 。 一 个 AU 也 包括 随便 哪 一 个 帧 或 场 级 的 用 户 数据 起 始 码 和 用 户 
数据 学 方 。 

基本 流 本 号 不 适合 在 信道 上 传输 ， 因 为 它 没 有 为 解码 右 和 显示 提供 任何 定时 信 
息 。 没 有 定时 信息 ， 出 现 一 个 随机 访问 的 时 候 ， 解码 右 可 能 会 与 其 他 的 基本 流 发 生 
冲突 。 因 此 ,通常 情况 是 首先 将 其 包 化 成 或 者 是 定 长 包 或 者 是 变 长 包 来 形成 包 化 基 
本 流 。VC-1 的 PES 在 MPEG-2 的 系统 框架 中 生成 。VC-1 简单 档次 / 主 档 次 的 PES 
包 净 负荷 格式 首部 插入 在 MPEG-2 PES 中 ， 如 图 8.27 所 示 。 当 PES 包 净 负荷 包括 
VC-1 基本 流 数 据 字 节 时 ，PES 包 首 部 的 域 诸如 PES 包 长 度 、 流 ID 、 数 据 对 章 指 
示 、 播 放 时 间 惟 (PTS, Presentation Time Stamp), ff #4 EY la] Æ (DTS, Decoding 
Time Stamp) 和 间断 指示 ， 就 被 修改 或 增强 。PES 包 长 度 是 一 个 16bit 的 域 ， 规 定 
了 字 节 数 。VC-1 基本 流 的 流 ID 设置 为 0xFD， 表 明 使 用 了 ISO 13818-1， 修 正 案 2 
的 扩展 机 制 。 如 有 果 它 设置 为 1， 数 据 对 齐 指示 用 来 表明 PES 包 首 部 紧 跟 这 视频 起 始 
码 或 音频 同步 字 。 如 果 数 据 对 齐 指 示 设 置 为 1， 且 没有 节目 映射 表 (PMT, Program 
Map Table) 中 VC-1 基本 流 相 关 的 数据 对 齐 亚 描述 符 ， 那 么 默认 的 对 齐 类 型 值 应 该 
等 于 0x02。 数 据 对 齐 指示 值 “0” 表 明 没 有 规定 对 齐 。 对 于 简单 档次 或 主 档 次 VC- 1 
基本 流 ， 数 据 对 齐 指示 域 的 值 应 该 总 是 设置 为 1 上 且 没 有 与 VC-1 基本 流 相 关 的 数据 
对 齐 亚 描述 符 。 

PTS/DTS 蕉 按照 与 MPEG-2 完全 相同 的 方式 使 用 。 特 别 地 ，PTSZDTS 域 的 值 
与 第 一 个 视频 AU 相关 ，AU 开始 于 PES 包 的 净 负 三 中 。VC-1 基 流 的 域 stream_id_ 
extension 具有 范围 在 0x55 和 OxSF 之 间 的 任何 值 。stream_id 和 stream_id_extension 
的 组 合 明确 地 定义 了 携带 VC-1 视频 数据 PES 包 。 

discontinuity_indicator 是 个 1 比特 的 域 ， 表明 当前 传输 流 包 是 否 处 于 不 连续 状 
态 。 连 续 性 计数 器 在 传输 流 包 中 使 VC-1 的 数据 发 生 中 断 之 后 ， 具 有 相同 包 标 识 的 
传输 流 包 中 基本 流 数 据 首 字 节 就 是 VC-1 访问 点 或 后 接 访 问 点 的 VC-1 序列 端 起 始 
码 的 首 字 节 。VC-1 访问 点 定义 如 下 : 

。 如 采 序 列 首 部 之 前 没有 序列 起 始 码 ， 那 么 VC-1 序列 首部 的 首 字 方 可 以 是 一 
个 访问 点 。 

。 如 果 序 列 起 始 码 就 在 序列 首部 之 前 ， 那 么 序列 起 始 码 的 首 字 市 就 是 一 个 访 
问 点 。 
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流 ID 流 ID 
扩 a hs 
EE 
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流 ID | 保留 
扩展 | 字 节 
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图 8.27 VC-1 基本 流 的 PES 包 语 法 框图 [C12] (2007 SMPTE) 


8.8.1 ”传输 流 中 VC-1 的 数据 封装 


在 传输 流 中 ， 节 目 (原文 programs 一 一 译 者 注 ) 用 列表 集合 指出 ， 这 些 列表 
周期 性 地 发 出 ， 叫 作 市 日 规定 信息 (PS, Program Specific Information ) 。 特别 低 ， 
节目 映射 表 (PMT, Program Map Table) 提供 了 节目 细节 并 规定 了 必要 的 信息 诸如 
包 标 识 (PID, Packet Identifier) 来 找到 和 编码 基本 流 分 量 。MPEGC-2 传输 流 中 的 
VC-1 基本 流 的 传送 取决 于 MPEG-2 系统 规定 中 的 传输 系统 目标 解码 器 (T-STD, 
Transport System Target Decoder) 绥 冲 模型 。 








首先 ，PMT 的 stream_type 值 设 置 为 0xEA 来 表明 VC-1 基本 流 。 这 意味 着 基本 
流 被 当 作 是 一 个 私 目 管理 的 流 。 这 个 私有 值 的 范围 必须 由 注册 描述 符 来 捕获 ， 它 包 
括 厂 十 子 描述 符 。MPEF-2 系统 中 的 注册 描述 符 设 计 的 目的 是 唯一 且 明 确 地 识别 
“私有 ”数据 的 格式 。privately- managed () 的 结构 最 初 视 为 MPEG-2 系统 设计 的 ， 
存在 于 MPEG-2 程序 单元 (PE, Program Element ) 的 内 部 描述 符 中 ，PE 在 相应 于 
VC-1 基本 流 的 传输 流 节 目 映 射 (PM: program map) 部 分 。Subdescriptor_tag 定义 
了 档次 /级 别 、 队 列 、 绥 冲 大 小 和 静止 帧 子 描述 符 ， 如 图 8. 28 所 示 。 


a | 段 语法 程序 | hea EN gu | 上 一 个 | | Por | emalen |e 
表 号 | PERE oj | sca] 程序 | | 版 本 号 | 下 一 个 | pe | 上 个 | | POR 生路 | N 环 路 | 环 宛 作 
9] feee | face 指示 Be BSR Ske eee ee 

8 1 12 12 16 2 5 1 8 8 3 13 32 
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VC-1 的 特定 元 素 
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图 8.28 VC-1 基本 流 的 传输 流程 序 映 射 段 图 [C12] (2007 SMPTE) 


8.8.2 程序 流 中 的 VC-1 数据 封装 


MPEG-2 程序 流 中 VC-1 基本 流 的 发 送 取决 于 MPEGC-2 系统 规定 的 程序 系统 目 
标 解 码 髓 (P-STD, Program System Target Decoder) 组 冲模 型 。 流 类 型 值 0xEA 和 
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注册 描述 符 和 前 面部 分 定义 的 子 描述 符 还 可 用 于 MPEG-2 程序 流 中 VC-1 基本 流 的 
输送 。 唯 一 的 区 别 是 ， 在 MPEG-2 程序 流 的 情况 下 ， 这 些 域 所 处 的 结构 由 程序 流 
映射 (PSM, Program Stream Map ) 定义 ，PSM the sea, me dai PAY EY 
装 由 程序 映射 表 (PMT, Program Map Table) 来 管理 ，PMT 只 与 MPEG-2 的 传输 流 
相关 。 这 样 ， 图 8. 29 所 示 的 封装 图 看 起 来 类 似 于 传输 流 的 封装 图 ， 除 了 基本 流 的 
N- 环 路 之 外 。 


包 起 始 | | 程序 流 | 当前 | | 程序 流 | | 程序 流 | N 环 路 | 基本 流 32 位 循环 
码 前 级 | 映射 流 id| 映射 长 度 | 下 二 个 | | 映射 版 本 | | 信息 长 度 | 描述 符 | 映射 长 度 | NE | 校 验 码 
指示 器 
24 8 16 1 2 5 7 16 32 
基本 流 N- 环 路 | | 
AEE 描述 符 || 


描述 符 | 描述 符 要 
8 8 


VC-1 注 册 
描述 符 字 节 


sd 档次 
ih | 排列 ota 


Mi ti ti iii i i ii, o a i O o y p) n i 


VC-1 特 定 的 元 素 
图 8. 29 VC-1 基本 流程 序 流 映 射 图 [C12] (2007 SMPTE) 


8.9 VC-2 视频 压缩 


SMPTE 标准 (SMPTE ST 2042-1: 2012) 
下 面 有 关 VC-2 [C6] 的 观点 是 从 上 文 引 用 的 SMPTE 标准 复制 的 。 





这 一 节 提 供 了 大 量 信 息 ， 却 没有 形成 这 篇 文档 的 一 个 完整 部 分 。VC-2 标准 规 
定 了 一 个 视频 压缩 系统 的 压缩 流 语 法 和 参考 解码 需 的 操作 。VC-2 是 个 帧 内 编码 的 
视频 压缩 系统 ， 服 务 于 专业 应 用 ， 它 在 许多 分 辨 率 上 提供 了 有 效 的 编码 ， 包 括 各 种 
不 同类 型 的 CIF、 标 清 电 视 和 高 清 电 视 。VC-2 利用 小 波 变换 ， 将 视频 信号 分 解 成 
多 个 频带 。 该 编译 码 需 设计 得 简单 又 灵活 ， 能 够 在 很 宽 范 围 的 分 辨 率 和 应 用 领域 上 
进行 工作 。 

该 系统 提供 如 下 能 

© 多 分 辩 率 变换 : 用 小 波 变换 对 数据 进行 编码 ， 数 据 包 逐 子 带 进 入 比特 流 中 。 
高 压缩 比 导 致 分 辨 率 的 逐渐 损失 。 较 低 分 辨 率 输出 的 图 像 可 以 通过 仅仅 抽取 较 低 分 
状 率 的 数据 来 获得 。 

© 帧 和 场 编 码 : 帧 和 场 都 可 被 单独 编码 。 

o 恒定 比特 率 和 可 变 比特 率 : VC-2 既 允 许 恒定 比特 率 又 允许 可 变 比 特 率 操 
作 。 对 于 低 时 延 图 像 ， 对 于 图 像 的 每 个 区 域 (VC-2 分 片 ， 比 特 率 都 是 恒定 的 ， 以 
此 来 确保 恒定 的 时 延 。 

e 可 变 位 深 : 8、10、12、 和 16 位 格式 及 以 上 都 支持 。 

多 色差 采样 格式 : 4:4:4、4: 2:2 和 4:2:0 视频 都 文 持 。 

。 EM RGB 编码 : 有 一 个 公共 工具 箱 既 可 用 于 有 损 编码 又 可 用 于 无 损 编 
fy, RGB 编码 或 者 由 YCoCg 整数 颜色 变换 [H23] 提供 支持 以 获得 最 大 压缩 效率 ， 
或 者 直接 压缩 RGB 信号。 

。 小 波 滤波 器 : 一 系列 小 波 滤波 器 可 被 用 于 平衡 性 能 和 复杂 度 。 支 持 Dau- 
bechies (9, 7) 滤波 右 以 与 JPEG2000 FEA, EGET REL EVER AE SEER IE A PF 
率 可 扩展 性 。 

。 简单 的 流 导航 : 编码 流 形 成 了 一 个 双向 列表 ， 每 个 帧 首部 都 指出 了 到 前 
一 帧 和 下 一 帧 的 偏 移 量 ,， 这 样 就 能 支持 场 精度 的 高 速 浏览 而 不 需要 分 析 或 
解码 。 

多 档次 : VC-2 提供 了 多 个 档次 以 解决 特定 应 用 的 特殊 需求 。 为 了 最 好 地 
匹配 它们 的 目标 应 用 ,不同 的 档次 包括 或 省 略 了 特定 的 编码 工具 。 主 档次 用 核心 
语法 提供 了 最 大 的 压缩 效率 、 可 被 比特 率 编码 和 无 损 编码 。 简 单 档次 通过 使 用 简 
单 的 变 长 码 而 不 是 主 档 次 所 用 的 算术 编码 进行 炉 编 码 ， 提 供 了 较 低 复杂 度 的 编译 
码 ， 但 压缩 效率 也 较 低 。 针 对 需要 很 低 的 、 固 定时 延 的 应 用 ， 低 时 延 档 次 使 用 了 
一 个 修改 的 语法 。 这 可 能 是 像 输入 或 输出 视频 的 几 行 一 样 低 的 时 延 。 面 向 低 带 宽 设 
施 的 再 次 使 用 ， 低 时 延 档次 适合 于 轻微 压缩 ， 例 如 在 SD- SDI 线路 上 传送 高 清 电视 
信和 号。 高 质量 档次 类 似 地 提供 了 低 时 延 的 轻微 压缩 ， 且 支持 可 变 比特 率 和 无 损 
编码 。 
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8.9.2 范围 


这 个 标准 从 流 语法 、 炉 编码 、 系 数 析 出 过 程 和 帧 解码 过 程 定 义 了 VC-2 [C6] 
视频 压缩 。 解 码 絮 的 操作 通过 混合 伪 代 码 和 数学 运算 进行 定义 。 

VC-2 是 一 个 帧 内 编码 的 视频 编译 码 需 ， 使 用 小 波 变 换 以 及 箭 编码 ， 可 以 容易 
地 以 很 高 的 比特 率 在 硬件 或 软件 上 实现 。 另 外 的 标准 和 推荐 的 练习 可 能 对 于 特定 的 
应 用 对 编码 定义 特殊 的 限制 。 

VC-2 编码 器 和 解码 器 的 功能 框 网 分 别 如 网 8. 30 和 图 8. 31 所 示 。 








系数 
图 8. 30” 样 值 编码 右 功 能 框图 [Co] (SMPTE 2012) 


VC-2 
比特 流 视频 元 数据 
语法 分 析 





视频 


重建 的 
量化 系数 | BTA hie 
变换 


图 8.31 VC-2 解码 融 的 功能 框图 (SMPTE 2012) 


8.10 ”总 结 


本 音 既 讨论 了 基于 微软 WMV9 的 VC-1， 又 讨论 了 基于 BBC 开发 的 DIRAC hi 
内 编码 的 VC-2。VC-1 和 VC-2 都 是 SMPTE 的 标准 。 


8. 11 专题 研究 


P. 8.1 Vijayakuar [C29] 开发 了 一 个 低 复杂 度 的 H. 264 到 VC-1 AFEA EH 
各 种 测试 序列 (CIF 和 QCIF)，VC- 编 译 码 器 在 低 量 化 参数 (QP) 下 的 主 
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P. 8.2 


P. 8.3 


P. 8.4 








观 质量 方 面 可 比 得 上 H. 264 SPE AS at, W MANEA [C29 | 
PAAR. RETA it SK Pe Sa TED TALE QP 下 进行 对 比 。 
Vijayakuma [C29] 提出 的 转 码 需 仅仅 涉及 H. 264 的 基本 档次 [H7] 和 
VC-1 的 简单 档次 [C3 ] 。 请 将 该 转 人 码 冀 扩展 到 其 他 档次 诸如 主 档次 和 高 档 
次 。 注 意 ， 这 个 专题 可 以 作为 硕士 水 平 的 研究 基础 。 

Vijakumar [C29] 在 她 的 硕士 论文 (6.5 市 的 结论 和 未 来 的 工作 ) 中 提出 ， 
H. 264 到 VC-1 的 转 码 人 可 以 通过 运动 矢量 (MV) 细 化 实现 进一步 的 改 
善 。 请 找到 一 个 适当 的 MV 细 化 方案 来 文 持 所 提出 的 MV 重用 思想 ， 并 对 
于 不 同 档次 在 不 同比 特 率 下 用 各 种 视频 序列 (CIF, QOF 等 等 ) 实现 
H. 264 到 VC-1 的 转 码 器 。 请 将 该 转 码 器 与 级 联 转 码 器 进行 对 比 。 

Ma. 硕士 论文 [C29] 可 以 从 www- ee. uta. edu/dip 下 载 。 点 击 courses 再 
点 击 EE5359。 问 下 滚动 并 查看 列表 “List of recent theses/projects”。 点 击 
Vijakumar thesis。 议 案 、ppt 等 也 能 被 下 载 。 

Lee 和 Kalva [C5] 开发 了 一 个 VC-1 到 H. 264 的 高 效 转 码 器 ， 请 实现 之 。 
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本 附录 基于 Biju Shrestha [E44] 的 专题 。 
MALES, TAIL UTA 的 EE5359 RIE WHE http://www- ee. uta. edu/Dip/Cour- 
ses/ EE5359/index. html 上 的 专题 (2012 FZ) 。 


aL 


A.1 Bl 


山 


Shrestha [E44] 针对 CIF 序列 实现 了 H. 265， 并 与 Dirac 和 H. 264 进行 了 对 
比 。 有 几 个 视频 压缩 标准 与 它们 的 旧版 本 [H46] 相 比 都 具有 性 能 和 质量 方面 的 额 
外 改进 。Dirac、H. 264 和 H. 265 的 图 像 质 量 可 以 使 用 一 些 指标 诸如 PSNR, CSNR, 
MSE, SSIM, MSSIM 和 FSIM [Q13、Q27、Q28] 用 各 种 测试 序列 加 以 研究 。 传 统 
的 PSNR 和 MSE 是 一 种 亮度 测量 的 指标 ， 不 能 用 于 测量 主观 质量 [Q16]。 像 SSIM 
和 FSIM 这 样 的 指标 考虑 了 人 类 的 视觉 系统 。 


A.2 H. 265 


H. 265 也 叫 作 HEVC [ES ] ， 它 能 表现 出 相对 于 AVC (ITU-T H. 264 | ISO/IEC 





| 





图 A.1 H. 265 的 编码 器 框图 ， 灰 色 框 是 所 提出 的 工具 ， 
白色 框 是 H. 264/AVC 工具 [E10] (2011 ETRI) 





14496-10) [E5] 明显 改善 的 压缩 性 能 。Alshina 等 [E2] 研究 了 高 分 辨 率 高 清 
1080p 下 的 编码 效率 并 得 出 结论 ,与 MPEG-4 AVC [E2] 相 比 ， 对 于 分 级 的 B 结 
构 和 IPPP 结构 能 提高 平均 37% F36% 的 比特 节约 。 通 常 的 基于 块 的 视频 编译 码 需 
由 许多 环节 组 成 ， 包 括 帧 内 预测 和 帧 间 预 测 、 变 换 、 量 化 、 业 编码 和 滤波 [ E10]， 
如 图 A.1 和 图 A. 2 所 示 。 在 过 去 的 十 年 中 ， 视 频 编 码 技术 经 历 了 深入 人 研究 以 其 获 
得 更 高 的 编码 效率 。 








平面 帧 间 预 测 

直流 帧 间 预 测 
Pit 
vil 


角度 帧 间 预 测 
亮度 分 量 的 帧 
间 预 测 









帧 间 样 值 预测 keg 

LR INTER A 
条 件 样 值 自 
适应 偏 移 





自 适应 环 路 
图 A. 2 H. 265 的 解码 器 框图 。 灰 色 框 是 提出 的 工具 ， 
白色 框 是 H. 264/AVC 的 工具 [E10] (2011 ETRI) 


A.3 使 用 SSIM 和 FSIM 的 图 像 质量 评价 


在 不 同 的 阶段 ， 诸 如 采集 、 处 理 、 压 缩 、 存 储 、 传 输 和 再 生 的 过 程 中 ， 数 字 图 像 和 
视频 容易 产生 各 种 失真 [Q2] 。 这 种 恶化 导致 了 视觉 质量 的 下 降 。 由 几 个 广泛 用 于 定量 
摘 述 图 像 质 量 的 指标 ， 像 FSIM、SSIM、 比 特 流 、PSNR 和 MSE [Q28, Q2, Q13, 
Q17] 。 传 统 指标 像 PSNR 和 MSE 直接 依赖 图 像 的 强度 ， 与 主观 保 真 度 级 别 没有 关系 
[Q16], MSE 不 能 非常 精确 地 把 人 类 视觉 系统 模型 化 [【Q19]。 度 量 参数 如 PSNR, MSE, 
Dirac 的 SSIM, H. 264 和 H. 265 将 被 进行 比较 ， 以 研究 它们 相对 特性 并 给 出 结论 。 

SSIM 是 基于 结构 信息 恶化 的 图 像 质 量 评价 方法 [ Q13]。SSIM 采取 了 一 种 方 
法 ， 便 于 人 类 视觉 系统 适应 于 从 图 像 抽 取 结 构 信 息 [Q17]。 因 而 ， 保 持 结构 信和 号 
对 于 图 像 保 真 度 测量 是 很 重要 的 。 图 A. 3 给 出 了 非 结 构 和 结构 失真 的 差别 。 非 结 
构 失 真是 一 些 参数 的 改变 ， 如 亮度 、 对 比 度 、 伽 玛 失 真 和 空间 移 位 ， 通 常 由 环境 和 
仪器 条 件 造成 ， 发 生 在 岁 像 采集 和 显示 过 程 中 [Q17 ] 。 在 另 一 方面 ， 结 构 失 真 包 
括 加 性 噪声 、 拌 动 和 有 损 压 缩 [Q17] 。 结 构 失 真 改变 了 图 像 的 结构 [ 017]。 图 
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A. 4 解释 了 用 在 计算 SSIM 的 度量 系统 。 
Ah 到 失真 空间 移动 JPEG 块 效应 小 波 振 铃 
图 A. 3 非 结构 失真 与 结构 失真 的 差别 [Q22] (2009 IEEE) 
HFX 
相似 
言 号 y 度 度量 
结构 
比较 
十 
图 A.4 SSIM 度量 系统 框图 [Q22] (2009 IEEE) 
对 于 给 定 的 矢量 x = {x |i=1, 2, +, AN 和 y= 1{y,|i=1, 2, =, N}, 








SSIM 在 三 种 不 同 的 指标 上 进 和 7 计算， 如 亮度 、 对 比 度 和 结构 ， 结 构 由 式 (A1), 
式 (A.2) 和 式 (A.3) 分 别 进行 数学 描述 [Q17], 








人 /二 p (A. 1) 
Mx +p, +C, 
(x.y) 20,0, +C, CA. 2 
c(x,y) = . 
mod g.+0,+C, 





sase mam (A. 3) 


式 中 , 人 和 几 分 别 等 于 * 和 y 的 局 部 样 值 的 平均 ; o Alo, DEF x 和 y 的 局 部 样 
值 的 标准 差 ，o,, 等 于 x 和 y 的 局 部 样 值 的 相关 系数 ，C, 、C, AC, 等 于 常数 ， 它 在 
分 母 变 小 时 可 以 稳定 计算 。 

SSIM 指标 的 一 般 形式 可 以 通过 综合 式 (A.1)、 式 (A.2) 和 式 (A.3) [Q27] 
来 得 到 。 

SSIM(x,y) = [71(x,y) [eCx,y) [s(x,y) 了 (A.4) 

式 中 ,a、B 和 是 调整 这 三 个 分 量 相 对 重要 性 的 参数 。 如 果 a =B =y =1， 我 们 得 
到 [Q27] 
Cutt, + C,) (20,, + C,) 
(u tu, +C,)(o,0, +C) 

图 A.5 给 出 了 用 MSE 和 SSIM 定量 描述 的 不 同 失真 的 图 像 。 可 以 很 清楚 地 看 
到 ， 不 同 的 岁 像 具 有 基于 人 类 视觉 系统 (HVS, Human Visual System) 的 不 同 质 
量 。 然 而 ， 所 有 失真 图 像 具 有 近似 相同 的 MSE， 然 而 对 于 低 质 量 图 像 SSIM 是 比较 
小 的 ， 比 MSE 给 出 好 得 多 的 图 像 质 量 指示 。 





SSIM(«,y) = (A.5) 














图 A.5 不 同 失真 下 图 像 的 MSE 和 SSIM 度量 值 
a) 原始 图 像 (MSE =0，SSIM =1) b) 平均 亮度 平移 (MSE =144，SSIM =0.988) c) 对 比 度 拉 伸 
(MSE =144, SSIM =0.913) d) 脉冲 噪声 污染 (MSE =144, SSIM =0.840) e) 抖动 
(MSE = 144, SSIM =0. 694) f) JPEG [J18] 压缩 (MSE =142, SSIM =0. 662) [Q13] 
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特征 相似 度 指标 基于 这 样 的 事实 ，HVS 主要 按照 图 像 的 低级 特征 来 理解 一 幅 
AMR 【Q28 ] 。 相 位 一 致 性 (PC, Phase Congrency) 是 一 种 对 于 局 部 结构 重要 性 的 
无 量 纲 的 测度 [Q28 ]。PC 和 图 像 梯 度 幅 值 (GM, Gradient Magnitude) 量度 在 
FSIM 中 分 别 用 作 主 要 和 次 要 特征 【Q28] 。 通 过 把 PC 作为 图 像 局 部 质量 的 加 权 郴 
数 可 以 算出 FSIM 分 值 ， 而 局 部 质量 由 PC 和 GM 表征 [Q28], FSIM 是 面向 灰 度 级 
图 像 而 设计 的 [Q28], M FSIMc 混合 了 色 度 信息 。FSIM 可 以 数学 建 模 如 下 
[ Q28 | 
Divert APC (a) 

DipeghC,, 2) 
RP, S) 等 于 参考 图 像 和 失真 图 像 的 总 体 相似 度 。 
FSIM 可 以 数学 建 模 如 式 (A.7) 所 示 ， 计 算 过 程 如 图 A. 6 所 描述 [Q28]. 





FSIM(«,y) = (A. 6) 




















ak. y 
I PCa SPC SG Si 


L | | 
FoSpc(x) Sa) * [S SaGO] + PCm() 
LoPCu(x) 





FSIMc= 





图 A.6 FSIM/FSIM, 指标 计算 图 示 
(有 是 参考 图 像 ， 是 fi 的 失真 版 本 ) [Q28] (2011 IEEE) 


> nd Cu lS) PO 
È ,coPC, (x) 

SUH, A >0 是 用 来 调整 色 度 分 量 重要 性 的 参数 。 
Zen a aS Re 
DegPC,, (x) 

所 有 的 指标 都 使 用 不 同 的 方法 来 定量 比较 图 像 。 这 种 方法 使 得 方法 之 间 彼 此 不 同 。 
表 A. 1 给 出 了 图 像 质量 评价 指标 性 能 在 六 个 数据 块 上 的 排序 。 从 表 A. 1 可 以 看 出 ， 
在 进行 图 像 质量 评价 时 ，FSIM HE SSIM 好 ，SSIM HE PSNR 好 。 


FSIM, = 





(A.7) 





FSIM, = 











表 A.1 图 像 质 量 评价 指标 性 能 排序 (FSIM, SSIM 和 PSNR) [Q28] 





TID2008 CSIQ LIVE IVC MICT A57 
FSIM 1 1 1 1 1 
SSIM 2 2 2 2 2 2 
PSNR 3 3 3 3 3 3 





图 A.7 原始 的 Foreman QCIF 视频 序列 [V3] 
(视频 信息 一 一 QCIF， QCIF 序列 : foreman_qcif. yuav; 帧 高 176; 
帧 宽 144; WK 30 帧 /s; 用 于 编码 的 帧 总 数 : 30 w) 





Dirac, 87.32kbit/s H.264, 87.6kbit/s 
(基本 档次 ) 





a 


Dirac, 152.85kbit/s H.264, 142.82kbit/s H.265, 162.46kbit/s 
(基本 档次 ) 


图 A.8 用 不 同 的 编译 码 器 QCIF 序列 Foreman 的 结果 [E4 | 
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m N 





Dirac, 397.60kbit/s H.264, 323.76kbit/s H.265, 398.21kbit/s 
(基本 档次 ) 





Dirac, 4266.92kbit/s H.264, 3667.01 kbit/s H.265, 2301.14kbit/s 
(基本 档次 ) 


图 A.8 用 不 同 的 编译 码 器 QCIF 序列 Foreman 的 结果 [E44] ( 续 ) 


A.4.1 使 用 QCIF 序列 Foreman 的 结 
图 A.9~ 图 A.11 ANZ A. 2, 


PSNR 对 比特 率 
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图 A.9 ”对 于 QCIF 序列 Foreman 在 各 种 比特 率 下 获得 的 PSNR [E44] 














242 频 编 码 全 角度 详解 
MSE 对 比特 率 
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A EASAN -2-H 265 
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比特 率 /(kbit/s) 
图 A. 10 ”对 QCIF 序列 Foreman 在 各 种 比特 率 下 实现 的 MSE [E44] 
, SSIM 对 比特 率 
0.98 ae v= a 
0.94 
Æ 09 
z 0.88 Oooo] —@ Dirac 
a E -=-H 264 
aa -tH 265 
0.82 m 
0.8 
0 200 400 600 800 1000 
比特 率 /(kbit/s) 
图 A.11 对 于 QCIF 序列 Foreman 在 各 种 比特 率 下 实现 的 SSIM [E44] 
表 A.2 QCIF 序列 Foreman 的 YY 分 量 的 结果 表格 [E44] 
Dirac 
比特 率 / (kbit/s) PSNR/dB MSE SSIM 
87. 31543 24. 2585 243. 9108 0. 70942 
104. 1455 27. 10295 126. 7024 0. 80875 
152. 8516 30. 81619 53. 88419 0. 89656 
224. 4629 35. 58351 17. 9775 0. 95434 
397. 6055 39. 69524 6. 97519 0. 97947 
805. 6953 43. 87075 2. 66689 0. 99047 
1615.6 47. 5301 1. 14834 0. 99547 
2918. 021 50. 96503 0. 52069 0. 99801 
4266. 925 55. 04958 0. 20329 0. 99934 
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( 续 ) 
H. 264 
比特 率 /( kbit/s) PSNR/dB MSE SSIM 
3667. 01 69. 941 0. 00723 1 
3280. 58 63. 357 0. 0309 0. 9999 
2903. 03 58. 825 0. 08601 0. 9996 
2352. 62 55. 135 0. 20001 0. 9991 
1952. 06 53. 245 0. 30894 0. 9987 
1586. 51 51. 563 0. 45541 0. 9981 
1205. 7 49. 597 0. 71567 0. 9971 
954. 55 47. 961 1. 04312 0. 9959 
736. 1 46. 25 1. 54575 0. 9942 
540. 58 44. 37 2. 38023 0.9917 
418. 68 42. 799 3. 41684 0. 9885 
323.76 41. 293 4. 83252 0. 9845 
240. 47 39. 632 7. 08134 0. 9784 
182.57 38. 186 9. 88001 0. 972 
142. 82 36. 904 13. 27354 0. 9652 
111.9 35. 448 18. 55763 0. 9544 
87.6 34. 056 25. 56888 0. 9426 
H. 265 
比特 率 /( kbit/s) PSNR/dB MSE SSIM 
2301. 136 61. 0449 0. 09232 0. 99946 
1810. 152 56. 4716 0. 2055 0. 99881 
1407. 104 53. 6141 0. 34358 0. 99812 
1080. 7 51. 5846 0.51131 0. 99738 
827. 016 49. 9778 0. 71189 0. 99655 
639. 616 48. 5619 0. 96235 0. 99556 
502. 432 47. 2557 1. 27745 0. 99439 
398. 208 45. 9397 1. 70959 0. 99277 
319. 312 44. 7036 2. 25273 0. 99081 
255. 792 43. 3888 3. 03526 0. 98797 














(2) 
H. 265 
比特 率 /( kbit/s) PSNR/dB MSE SSIM 

205. 376 42. 0663 4.09816 0. 98408 
162. 456 40. 7085 5. 59949 0. 97936 
126. 6 39. 2593 7. 81681 0. 97236 

99. 016 37. 8324 10. 84688 0. 9643 

76. 808 36. 416 15. 03856 0. 95421 

61. 152 35. 2166 19. 84122 0. 94431 

48. 152 33. 8996 26. 82359 0. 93215 





SIEMENS z h N 
b. | 





图 A.12 原始 CIF 序列 Foreman [ V3 | 
(视频 信息 一 一 CIF 序列 : Foreman_cif. yuv; 帧 高 : 352; 帧 宽 : 288; We; 30 帧 /s; 用 于 编码 的 总 帧 数 : 30 帧 ) 


Pan 





Dirac, 251.79kbit/s H.264, 96.64kbit/s H.265, 93.44kbit/s 
(基本 档次 ) 





Dirac, 295.83kbit/s H.264, 320.87kbit/s H.265, 274.82kbit/s 
(基本 档次 ) 


图 A. 13 ”使 用 不 同 的 编译 码 器 CIF 序列 Foreman 的 测试 结果 [E44] 
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Dirac, 251.79kbit/s H.264, 96.64kbit/s H.265, 93.44kbit/s 
(基本 档次 ) 


RN 
\ 


Dirac, 295.83kbit/s H.264, 320.87kbit/s H.265, 274.82kbit/s 
(基本 档次 ) 





图 A.13 ”使 用 不 同 的 编译 码 器 CIF 序列 Foreman 的 测试 结果 [E44] ( 续 ) 


A.4.2 使 用 CIF 序列 Foreman 的 结 
图 A. 14 ~ 图 A. 18 和 表 A.3。 

A. 4.3 ”使 用 QCIF 序列 Container 的 结 
图 A. 19 ~ 图 A. 23 和 表 A. 4。 
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图 A.14 CIF 序列 Foreman 在 各 种 比特 率 下 实现 的 PSNR [E44] 





图 A.16 CIF 序列 Foreman 在 各 种 比特 率 下 的 SSIM [E44] 


MSE 对 比特 率 
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图 A. 15 ”CIF 序列 Foreman 在 各 种 比特 率 下 的 MSE [ E44 | 
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表 A.3 CIF 序列 Foreman 的 Y 分 量 测试 结果 列表 








Dirac 
比特 率 / (kbit/s) PSNR/dB MSE SSIM 
251. 7861 26. 16213 157. 3501 0. 75122 
295. 8262 29. 17884 73. 31557 0. 83221 
411. 4258 32. 99665 32. 61482 0. 89702 
665. 3672 36. 42028 14. 82696 0. 94178 
1307. 283 39. 65805 7. 03519 0. 96798 
2926. 172 43. 10598 3. 1804 0. 98192 
6706. 156 46. 82782 1. 34989 0. 99189 
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( 续 ) 
Dirac 
比特 率 / ( kbit/s) PSNR/dB MSE SSIM 
12275. 79 50. 82581 0. 53765 0. 99706 
17673. 92 55. 18275 0. 19715 0. 99912 
H. 264 
比特 率 /(kbit/s ) PSNR/dB MSE SSIM 
14905. 66 64. 495 0. 02357 0. 9999 
13361. 46 59. 419 0. 0748 0. 9995 
11138. 92 55. 569 0. 18081 0. 9988 
9462. 26 53. 504 0. 29052 0.9981 
7787. 24 51.79 0. 43092 0. 9972 
5876. 26 49. 722 0. 69383 0. 9956 
4650. 4 48. 045 1. 02124 0. 9937 
3423. 99 46. 211 1. 56024 0. 9904 
2259. 58 44. 232 2. 45871 0. 9856 
1592. 58 42.713 3. 48797 0. 9804 
1128. 79 41. 309 4.8165 0. 9742 
784. 31 39. 805 6. 80952 0. 9657 
565. 55 38. 478 9. 2431 0. 9559 
426. 02 37. 27 12. 21212 0. 9448 
320. 87 36. 003 16. 34605 0. 9313 
244. 86 34. 799 21. 57591 0. 9176 
193. 04 33. 681 27. 91477 0. 9019 
150. 36 32. 449 37. 0522 0. 8834 
118. 94 31. 307 48. 19565 0. 8642 
96. 64 30. 181 62. 47732 0. 8413 
H. 265 
比特 率 /(kbit/s ) PSNR/dB MSE SSIM 
9562. 624 57. 5297 0. 15687 0. 99874 
7740. 52 54. 2904 0. 28891 0. 9977 
6062. 28 51. 8845 0. 47837 0. 99625 
4588. 064 49. 8117 0. 7684 0. 99415 
3351. 448 47. 9604 1. 17528 0. 99149 
2424. 128 46. 3638 1. 6593 0. 98867 














(2) 
H. 265 
比特 率 /( kbit/s) PSNR/dB MSE SSIM 

1748. 224 44. 9876 2. 20962 0. 98562 
1262. 032 43. 7665 2. 85814 0. 98215 
916. 832 42. 618 3. 66935 0. 97789 
681. 096 41.5195 4. 67979 0. 9727 
500. 16 40. 3466 6. 10686 0. 96587 
366. 656 39. 171 7.982 0. 95762 
274. 816 37. 9924 10. 45239 0. 94766 
208. 016 36. 847 13. 59112 0. 9361 
158. 512 35. 7304 17. 55409 0. 92362 
122. 136 34. 6362 22. 57885 0. 91007 
93. 44 33. 5346 29. 07615 0. 89551 





` 
` 
了 


图 A.17 原始 的 QCIF 序列 container [ V3 | 
(视频 信息 一 一 QCIF 序列 : container_qeif. yav; 帧 高 176; 帧 宽 144; W.: 30 Wis; 用 于 编码 的 总 帧 数 : 30 帧 ) 
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| 
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-h x —_ 
Dirac, 47.08kbit/s H.264, 38.54kbit/s H.265, 44.81 kbit/s 
(基本 档次 ) 


图 A. 18 使 用 不 同 编 译 码 器 QCIF 序列 container 的 测试 结果 [E44] 
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Dirac, 74.55kbit/s H.264, 69.37kbit/s H.265, 74.51kbit/s 
(基本 档次 ) 









E ma 


k 2 = 
Dirac, 218.86kbit/s H.264, 203.5kbit/s 
(基本 档次 ) 





Te 





E ia 


m pm 
mh E 


Dirac, 3568.48kbit/s H.264, 1806.49kbit/s H.265, 1743.176kbit/s 
(基本 档次 ) 


图 A. 18 使 用 不 同 编译 码 侨 QCIF 序列 container 的 测试 结果 [E44] ( 续 ) 
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图 A.19 QCIF 序列 container 在 各 种 比特 率 下 的 PSNR [E44 ] 
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图 A.20 QCIF 序列 container 在 各 种 比特 率 下 的 MSE [E44] 
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SSIM 对 比特 率 
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QCIF 序列 container 在 各 种 比特 率 下 的 SSIM [E44] 


表 A.4 QCIF 序列 container 的 Y 分 量 测试 结果 列表 








Dirac 
比特 率 / (kbit/s) PSNR/dB MSE SSIM 
47. 08594 24. 25652 244. 0219 0. 74807 
54. 68457 26. 58447 142. 769 0. 82296 
74. 55176 30. 9816 51. 87055 0. 8979 
112. 7266 35. 77031 17. 22063 0. 94235 
218. 8604 40. 67826 5. 5623 0. 97352 
475.7578 45. 09811 2.01034 0. 98987 
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( 续 ) 
Dirac 
比特 率 / ( kbit/s) PSNR/dB MSE SSIM 
1121.212 48. 0381 1.02158 0. 99476 
2325. 415 50. 91785 0. 52638 0. 99743 
H. 264 
比特 率 / (kbit/s) PSNR/dB MSE SSIM 
3095. 22 68. 477 0. 01008 0. 9999 
2737. 65 62. 433 0. 03835 0. 9998 
2371.05 58. 482 0. 09337 0. 9994 
1806. 49 54. 779 0. 21739 0. 9986 
1350. 69 52. 611 0. 3576 0. 9976 
990. 99 50. 622 0. 56554 0. 9961 
700. 1 48. 674 0. 88545 0. 9939 
521. 56 47 1. 3013 0. 9912 
390. 56 45. 359 1. 89787 0. 9874 
280. 98 43. 626 2. 82744 0. 9822 
203. 05 42. 038 4. 07523 0. 9758 
146. 91 40. 541 5. 75502 0. 9681 
99. 92 39. 024 8. 15939 0. 9597 
69. 37 37. 661 11. 17344 0. 9517 
50. 52 36. 418 14. 87515 0. 9448 
38. 54 35. 93 20. 16539 0. 9373 
29. 63 33. 82 27. 03133 0. 9288 
H. 265 
比特 率 / (kbit/s) PSNR/dB MSE SSIM 
1743. 176 60. 7041 0. 10723 0. 99917 
1267. 496 56. 1859 0. 22991 0. 99822 
920. 84 53. 4967 0. 35728 0. 99736 
661. 048 51. 6196 0. 50069 0. 99645 
482.976 50. 2206 0. 65918 0. 99543 
355. 896 48. 977 0. 85664 0. 99419 
269. 928 AT. 1122 1. 11536 0. 99254 
205. 552 46. 514 1. 47679 0. 99031 
160. 176 45. 3014 1. 94302 0. 98755 











(2) 
H. 265 
比特 率 /( kbit/s) PSNR/dB MSE SSIM 
124. 56 44. 0425 2. 58736 0. 98402 
96. 608 42. 7314 3. 49207 0. 97945 
74. 512 41. 4227 4. 71294 0. 97346 
57. 36 40. 0978 6. 3907 0. 96656 
44. 808 38. 757 8. 69522 0. 95846 


A.4.4 使 用 CIF 序列 Container 的 结 


图 A. 24 ~ 图 A. 27 MÆ A. 5, 





图 A. 22 原始 CIF 序列 container [ V3 | 
(视频 信息 一 一 CIF 序列 : container_cif. yav; Wifey; 352; 帧 宽 : 288; WE; 30 Wis; 用 于 编码 的 总 帧 数 : 30 帧 ) 





Dirac, 122.01kbit/s H.264, 115.82kbit/s H.265, 122.14kbit/s 
(基本 档次 ) 


图 A. 23 使 用 不 同 编译 码 器 时 CIF 序列 container 的 测试 结果 [ E44 | 
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加 到 = 


. = si E 二 = 
Dirac, 217.54kbit/s H.264, 233.19kbit/s H.265, 208.02kbit/s 
(基本 档次 ) 





H.264, 753.17kbit/s 1.265, 916.83kbit/s 
(基本 档次 ) 

f: i a. F: 

$e te at 
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= sy 


H.265, 11469.4kbit/s 





r ey 
T a = TF are 


Dirac, 15501.95kbit/s H.264, 1555.43kbit/s 
(基本 档次 ) 


图 A. 23 EHA TE SaaS ashy CIF 序列 container 的 测试 结果 [E44] ( 续 ) 
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图 A.24 CIF 序列 container 在 各 种 比特 率 下 的 PSNR [E44] 
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图 A.25 CIF 序列 container 在 各 种 比特 率 下 的 MSE [E44] 
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图 A.26 CIF 序列 container 在 各 种 比特 率 下 的 SSIM [ E44 | 
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图 A.27 MSU 视频 质量 评价 工具 3.0。 免费 版 本 计算 不 同 的 指标 如 PSNR, MSE 和 SSIM [Q30] 
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表 A.5 CIF 序列 container 的 YY 分 量 测试 结果 列表 


255 


























Dirac 
比特 率 / (kbit/s) PSNR/dB MSE SSIM 
122. 0107 24. 99744 205. 7484 0. 73993 
148. 9033 27. 16859 124. 802 0. 80432 
217. 5371 31. 00858 51. 54929 0. 86798 
410. 5264 35. 71859 17. 42695 0. 92785 
906. 9629 40. 49885 5. 7969 0. 96866 
2139. 141 44. 28241 2. 42571 0. 98573 
5243. 777 47. 30256 1.21011 0. 99267 
10287. 48 50. 76457 0. 54528 0. 9971 
15501. 95 55. 16019 0. 19818 0. 9991 
H. 264 
比特 率 /(kbit/s ) PSNR/dB MSE SSIM 
16414. 2 71. 623 0. 00592 1 
12895. 66 64. 052 0. 02622 0. 9998 
11403. 13 59. 113 0. 08037 0. 9994 
9215. 22 55. 314 0. 19186 0. 9986 
7593. 62 53. 349 0. 3012 0. 9977 
5989. 81 51. 676 0. 44254 0. 9967 
4355.95 49. 564 0. 71983 0. 9947 
3288. 64 47. 736 1.09712 0. 9922 
2316. 39 45. 758 1. 73043 0. 9879 
1555. 43 43. 834 2. 6944 0. 9819 
1076. 42 42.151 3. 96953 0. 9739 
753.17 40. 588 5. 68885 0. 9635 
497. 22 39. 006 8. 18687 0. 95 
337. 19 37. 597 11. 32449 0. 9355 
233. 19 36. 32 15. 1952 0. 9211 
158.5 35. 017 20. 51233 0. 9059 
115. 82 33. 836 26. 92392 0. 8906 
87. 29 32. 723 34. 78167 0. 8776 
65.95 31. 503 46. 04602 0. 864 
H. 265 
比特 率 / (kbit/s) PSNR/dB MSE SSIM 
11469. 4 62. 3897 0. 0796 0. 99938 














( 续 ) 
H. 265 
比特 率 /( kbit/s) PSNR/dB MSE SSIM 

9562. 624 57. 5297 0. 17563 0. 99861 
7740. 52 54. 2904 0. 30634 0. 99756 
6062. 28 51. 8845 0. 48965 0. 9961 
4588. 064 49. 8117 0. 76738 0. 99396 
3351. 448 47. 9604 1. 09722 0. 99164 
2424. 128 46. 3638 1. 43027 0. 9896 
1748. 224 44. 9876 1. 85426 0. 98697 
1262. 032 43. 7665 2.41575 0. 98339 
916. 832 42. 618 3. 12276 0. 97917 
681. 096 41. 5195 4. 08571 0. 97363 
500. 16 40. 3466 5. 36587 0. 9664 
366. 656 39. 171 7. 15771 0. 95772 
274. 816 37. 9924 9. 46237 0. 947 

208. 016 36. 847 12. 41334 0. 9354 
158. 512 35. 7304 16. 22794 0. 92336 
122. 136 34. 6362 21. 48924 0. 90917 
93. 44 35. 5346 27. 86858 0. 89417 
13. 52 32. 508 36. 96402 0. 87824 
58. 424 31. 5021 48. 6575 0. 86083 





本 附录 旨 在 研究 不 同 视 频 编 译 码 需 的 质量 性 能 ， 主 要 集中 于 Dirac, H. 264 和 
H. 265 [|D24，H36，E50] 。 对 于 所 有 的 三 个 视频 编译 码 器 ， 计 算 了 各 种 比特 率 下 
的 不 同 参数 如 PSNR, MSE 和 SSIM， 进 行 了 对 比 研 究 。 基 于 不 同 空间 / 时 间 分 辩 率 
的 各 种 测试 序列 ， 广泛 地 使 用 了 MATLAB, Microsoft Visual Studio, FU MSU 视频 质 
量 评价 工具 ( 见 图 A.27) [Q30] 在 各 种 比特 率 下 对 不 同 的 编译 码 吉 进行 了 图 像 质 
量 评价 ,图 A.9~ 图 A.11、 图 A.14~ 图 A.16、 图 A.19~ 图 A.21、 图 A.24~ 
图 A. 26 分 别 给 出 了 QCIF 序列 Forman, CIF 序列 Foreman, QCIF 序列 container 和 
CIF 序列 container 分 别 在 各 种 比特 率 下 指标 如 PSNR，MSE， 和 SSIM 的 变化 。 表 格 
形式 的 结果 在 表 A. 2 ~ 表 A.5 中 给 出 。 基 于 所 获得 的 结果 ，H. 265 在 任何 给 定 的 比 
特 率 上 都 实现 了 超过 H. 264 和 Dirac 的 性 能 。 然 而 ， 就 所 用 的 测量 指标 而 言 ， 在 较 
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A.6 专题 研究 


P. A. 1 





在 本 附录 中 ， 利 用 各 种 测试 序列 (QCIF 和 CIF) 在 不 同 的 比特 率 上 基 


F SSIM, PSNR FI MSE 比较 了 H. 264. H. 265 和 Dirac。 请 实现 这 些 
测试 并 证 实 相 应 结果 。 


请 基于 MS SSIM 和 FSIM 推广 P. A. 1 中 的 比较 。 
请 将 P. A. 1 中 的 比较 推广 到 标清 电视 和 高 清 电视 序列 。 


P. A.2 
P. A. 3 


附录 B AVSNR 软件 的 PSNR 平均 值 


本 附录 讨论 的 是 关于 IVT 专家 组 邮件 清单 上 的 三 个 颜色 分 量 的 平均 PSNR [1]. 
(JVT 使 用 了 一 些 由 亚 琛 工业 大 学 主办 的 电子 邮件 清单 ， 主要 是 jvt-experts @ 
这 些 列 表 可 用 https ;//mailman. rwth-aachen. de 加 入 ) 。 

我 在 用 4:2:2 的 高 档次 进行 测试 。 我 的 工作 是 比较 位 深 为 10bit/ 像 素 与 8bit/ 像 
素 的 客观 评价 指标 ,但 对 于 色 度 分 量 利 用 4:2:2 的 亚 采样 。 我 们 应 该 用 什么 样 的 平 
均 PSNR 来 使 用 AVSNR 软件 呢 ? 

事实 上 ,没有 一 个 大 家 都 很 满意 的 方法 。 在 JCTVC-H0012 [2] 中 有 关于 这 些 
问题 的 一 些 讨论 。 

在 某 种 程度 上 ， 用 比特 分 配 效 应 有 可 能 “ 思 弄 评价 指标 ”， 例 如 ， 像 JCTVC- 
G0401 [3] 描述 的 那样 。 

在 某 种 程度 上 ， 我 仍然 认为 有 必要 分 别 看 一 下 三 个 颜色 分 量 的 每 一 个 PSNR 
的 值 。 

但 是 ， 寻 找 一 种 简单 办 法 得 出 一 个 组 合 度量 衡 以 便于 综合 评价 ， 这 是 非常 
取 的 。 

组 合 指标 在 三 个 颜色 分 量 中 公平 地 表示 率 失真 的 相对 平衡 ， 这 是 令 人 满意 的 。 
对 于 4:2:0 视频 ,通常 亮度 质量 关于 比特 花费 的 增 额 等 于 色 度 质量 的 某 种 增 额 ， 该 
亮度 增 额 是 很 不 均匀 的 。 对 于 每 一 份 亮 度 的 PSNR 损失 量 ， 你 能 获得 多 少 色 度 的 
PSNR 增加 量 之 间 ， 可 能 会 有 大 约 10: 1 的 比率 一 一 我 认为 它 是 一 个 大 于 3:1 的 比率 
并 由 下 式 反映 








lists. rwth-aachen. de 


























PSNR,,, = (6 x PSNR, +1 x PSNR, +1 x PSNR, )/8 (B. 1) 
然而 ， 组 合 指标 表示 视 党 质量 的 均衡 也 是 可 取 的 。 我 认为 ， 视 觉 质量 均衡 不 像 
PSNR 均衡 那样 极端 。 
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附录 C 通用 图 像 质 量 指标 与 SSIM 的 比较 


本 附录 基于 Chaitanya Chukka [Q29] 的 专题 。 
欲 知 详情 ， 请 参见 UTA 的 EE5359 课程 网 址 http ://www-ee. uta. edu/Dip/Cour- 
ses/EE5359/index. html 上 的 项 目 (2010 #2) 。 


aL 


C.1 BJ 


Dii 


Caitanya Chukka 比较 了 一 个 通用 的 图 像 质 量 指标 和 SSIM [Q29]。 在 此 附录 中 ， 研 
究 了 一 个 新 的 通用 客观 图 像 质量 指标 ， 它 可 以 用 于 各 种 图 像 处 理应 用 当中 。 这 一 易于 计 
算 的 指标 把 任 一 种 失真 模型 化 为 三 个 因素 的 组 合 : 相关 度 损失 、 亮 度 失 真 和 对 比 度 失 
真 。 本 专题 的 目的 是 用 这 个 指标 来 确定 图 像 质 量 ， 而 且 判 定 结果 好 于 传统 的 误差 和 方 
法 ， 诸 如 均 方 误差 (MSE, Mean Square Error), WEA TR BEEK (PSNR, Peak Signal to 
Noise Ratio) 、 方 均 根 误差 (RMSE, Root Mean Square Error) 和 评价 绝对 误差 (MAE, 
Mean Absolute Error)。 然 而 ， 在 此 专题 中 ， 我 们 只 对 比 我 们 在 数学 上 定义 的 质量 因数 和 
图 像 的 MSE 来 定义 一 幅 好 的 图 像 。 这 种 方法 不 依赖 于 测试 图 像 的 类 型 和 大 小 。 它 也 独 
立 于 图 像 的 像素 大 小 和 观察 条 件 。 这 样 , “通用 ”一 词 用 于 这 种 方法 就 是 恰如其分 的 。 
Q 的 动态 范围 从 1 到 -1， 正 1 比 指标 为 负 1 表示 一 幅 更 好 的 图 像 。 

另外 ,还 研究 了 基于 HVS 假设 的 结构 相似 测度 ,假设 人 类 视觉 感知 高 度 目 适应 于 
抽取 场景 的 结构 信息 。 这 个 测度 是 一 个 可 上 自由 选用 的 框 如 ， 用 于 基于 结构 信息 恶化 的 质 
量 评价 。 被 对 象 表面 的 亮度 是 照度 和 反射 率 的 乘积 ， 但 场景 中 对 象 的 结构 与 照度 无 关 。 
图 像 的 结构 信息 定义 为 赋予 场景 对 象 结构 的 东西 ， 它 独立 于 平均 腕 度 和 对 比 度 。 

图 像 信号 通常 是 静止 的 ， 随 空间 而 变化 的 ; 它 的 失真 来 自 于 多 方面 的 侵害 ， 如 
Aaah Rs TE ra Ors SPEDE MR TERE, Bboy AL JPEG 压缩 。 
首先 用 MATLAB 代码 对 Lena 图 像 计 算 MSE, PSNR, Q., FI SSIM 中 的 每 一 个 ， 然 
后 再 对 其 他 测试 图 像 进 行 计 算 (Couple 和 Goldhill) 。 最 后 给 出 结果 得 出 结论 。 


C.1.1 MSE: 












































MSE (Mean Square Error， 均 方 误 差 ) 是 个 信号 保 真 度 测 度 。 信 号 保 真 度 测 度 
的 目的 是 通过 提供 一 个 定量 分 数 来 比较 两 个 信号 ， 这 个 分 数 摘 述 了 相似 度 / 保 真 度 ， 
或 者 反 过 来 ， 就 是 它们 之 间 的 误差 /失真 水 平 。 通 常 ， 假 定 其 中 一 个 信号 是 未 受 影 
啊 的 原始 信号 ， 而 另 一 个 受到 误差 导致 的 失真 或 污染 。 

假定 x= {x,|i=1, 2, N} 和 y= fy, |i=1, 2, N) 是 两 个 定 长 的 离散 
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RS (Hm, WARR, HoP NN 是 信号 样 值 数 像素， 如果 信 号 是 图 像 ) ，x, 和 
yi 分 别 是 x Aly 的 第 i 个 样 值 。 信号 x 和 y 之 间 的 MSE 是 
MSE(x,y) = 六 (wy) (C.1) 
在 MSE 中 ， 我 们 会 经 常 提 到 误差 信号 。 =x, -六 ， 它 是 原始 信号 与 失真 信号 之 
间 的 差 值 。 如 果 其 中 一 个 信号 是 质量 可 接受 的 (或 者 未 受 损 伤 的 原始 信号 ， 另 
个 是 评价 其 质量 的 失真 信号 ， 那 么 MSE 还 可 被 视 为 一 种 信号 质量 的 测度 。 
更 一 般 的 形式 是 4 范 数 


























N 
d,(%,y) = (> |e, |7)” (C. 2) 
i=l 
MSE 22 fs 42 4 DUET aR LK (PSNR) 测度 
2 
PSNR = 10 log Gam (C.3) 


AP, Le My CVF RARE AAT, PEN, MEP SPA 8bit/ 灰 度 级 的 图 像 ， 
L=2 -1 =255, WARHET IRN ARAA AN ATU, IA PSNR 是 很 有 用 
的 ， 不 过 此 外 并 没有 比 MSE 包含 更 多 新 的 信息 。 


C.1.2 为 什么 用 MSE? [Q22] 


MSE 具有 许多 引 人 注 意 的 特征 : 

1) 简单 。 它 没有 参数 ， 计 算 容 易 ， 对 每 个 样 值 只 要 一 次 乘法 和 两 次 加 法 的 复杂 
度 。 另 外 ， 需 要 较 少 的 内 存 一 一 平方 误差 可 以 在 每 个 样 值 上 计算 ， 与 其 他 样 值 无 关 。 

2) 物理 意义 明确 一 一 它 是 定义 误差 能 量 很 自然 的 方法 。 任 何 正 交 (或 单一 
的 ) 线性 变换 之 后 ， 这 样 的 能 量 测度 都 可 保持 ， 例 如 傅 里 叶 变 换 ( Parseval 定理 ) 。 
这 种 能 量 保持 特性 保证 了 变换 域 的 信号 失真 能 量 与 信号 域 的 能 量 相同 。 

3) 在 优化 场合 下 MSE 是 一 种 优越 的 度量 指标 。 因 为 MSE 的 梯度 和 矩阵 和 Hes- 
sian 矩阵 容易 计算 ， 最 小 MSE (MMSE) 优化 问题 常常 具 有 封闭 形式 的 解析 解 ， 如 
果 做 不 到 这 一 点 ， 迭 代 的 数值 优化 程序 也 常常 是 容易 设计 出 来 的 。 

4) MSF 广泛 使 用 ， 只 因为 它 是 一 个 惯例 。 历 史上 ， 它 被 广泛 用 于 优化 和 评价 
各 种 信号 处 理应 用 ,包括 滤波 占 设 计 、 信 和 号 压缩 、 复 原 、 去 品 、 重 建 和 分 类 。 而 
且 ， 遍 观 文献 ， 性 能 相当 的 算法 大 多 经 常用 MSE/PSNR 进行 比较 。 因 而 ， 它 提供 
了 一 个 方便 且 宽 泛 的 标准 ， 新 算法 的 MSE/PSNR 可 以 与 之 对 比 。 这 节约 了 时 间 和 
精力 但 进一步 推广 了 MSE 的 使 用 。 


C.1.3 MSE 有 什么 问题 ?[ Q22] 


很 显然 ，MSE 拥有 许多 对 于 应 用 和 分 析 令 人 满意 的 特性 ， 但 读者 可 能 会 指出 
忽略 了 一 个 更 为 基础 的 问题 。 那 就 是 ，MSE 真 的 度量 了 信和 号 的 保 真 度 ? 面 对 它 的 
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迷人 特征 ， 一 个 信号 处 理 从 业者 可 能 会 选择 MSE， 如 果 它 被 证 明 是 一 种 合理 的 信 
人 
和 质量 感知 的 时 候 ， 相 反 的 情况 出 现 了 。 图 C.1 [022] 给 出 了 一 个 说 明 图 例 ， 
其 中 一 幅 爱 因 斯 坦 图 像 用 不 同类 型 的 失真 进行 了 修改 ， 对 比 度 拉 伟 、 亮 度 均值 平 
移 、 加 性 高 斯 日 噪声 污染 、 脉 冲 噪声 失真 、JPECG 压缩 [Q16] [JP7] [JP8]、 拌 
动 、 空 间 缩 放 、 空 间 平 移 和 旋转 。 

在 图 C.1 中 ,给 出 了 MSE 值 和 男 一 个 质量 指标 的 值 ， 结 构 相 似 度 (SSIM) 
值 。SSIM 指标 将 在 后 面 详细 描述 。 注 意 到 ， 若 干 失真 图 像 的 MSE 值 (相对 于 原始 
图 像 C. la) 几乎 是 相同 的 ( 见 图 C. 1b ~ C.1g)， 即 使 同样 的 图 像 呈 现 出 明显 不 同 
的 视觉 质量 。 我 们 还 注意 到 经 过 轻微 的 几何 修改 的 图 像 (ILEI C. 1h ~ 图 C.1i) 相 
对 于 原始 图 像 可 能 会 有 很 大 的 MSE 值 ， 然 而 只 表现 出 一 点 可 忽略 的 视觉 质量 的 损 
失 。 所 以 ,一 个 自然 的 问题 是 “MSE 有 什么 问题 吗 ?”[Q22 ] 。 


0 &€ 





a 

















MSE=0,SSIM=1 MSE=306,SSIM=0.928 = MSE=309,SSIM=0.987 MSE=309,SSIM=0.576 
CW-SSIM=1 CW-SSIM=0.938 CW-SSIM=1.000 CW-SSIM=0.814 


a) b) c) d) 





MSE=313,SSIM=0.730 | MSE=309,SSIM=0.580 MSE=308,SSIM=0.641 | MSE=694,SSIM=0.505 
CW-SSIM=0.811 CW-SSIM=0.633 CW-SSIM=0.603 CW-SSIM=0.925 


e) f) g) h) 





MSE=871,SSIM=0.404  MSE=873,SSIM=0.399 MSE=590,SSIM=0.549  MSE=577,SSIM=0.551 
CW-SSIM=0.933 CW-SSIM=0.933 CW-SSIM=0.917 CW-SSIM=0.916 


i) j) k) D) 
图 C.1 对 于 不 同类 型 失真 改变 的 “ 爱 因 斯 坦 ” 图 像 保 真 度 测度 的 比较 [Q22] (2009 IEEE) 
a) 参考 图 像 b) 平均 对 比 度 拉 伸 c) 亮度 平移 d) 高 斯 噪声 污染 e) 脉冲 噪声 污染 
f) JPEG 压缩 [JP9] g) 抖动 h) 空间 缩放 (缩小 ) i) 空间 平移 (mA) 
j) 空间 平移 (HÆ) k) 旋转 CHE) 1) 旋转 ( 顺 时 针 ) 
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C.1.4 使 用 MSE 的 隐 含 假定 


1) 原始 图 像样 值 之 间 的 信号 保 真 度 独 立 于 时 间或 空间 关系 。 换 言 之 ， 如 果 原 
始 信号 和 失真 信号 以 相同 的 方式 随机 重 排序 ， 那 么 它们 之 间 的 MSE 不 会 改变 。 

2) 信和 号 保 真 度 独立 于 原始 信号 与 误差 信号 之 间 的 任何 关系 。 对 一 个 给 定 的 误 
差 信 号 ，MSE 保持 不 变 ， 不 管 它 加 到 哪个 原始 信号 上 。 

3) 信号 保 真 度 独立 于 误差 信号 样 值 的 符号 。 

4) 所 有 的 信号 样 值 对 于 信号 保 真 度 同等 重要 。 

不 全 的 是 ， 在 度量 图 像 保 真 度 视 沉 感知 方面 ， 它 们 没有 一 个 〈 即 使 粗略 地 ) 
能 成 立 。 关 于 这 些 假定 的 诚实 性 , 文献 [Q22] 的 图 3 展示 了 给 人 印象 深刻 的 MSE 
的 失败 的 图 例 。 


C15 主观 对 客观 图 像 质 量 测度 


既然 人 类 是 多 数 图 像 图 像 处 理应 用 中 最 终 的 接受 者 ， 那 么 评价 一 幅 图 像 质量 的 
最 可 徘 方 法 就 是 主观 评价 。 事 实 上 ,评价 意见 得 分 (MOS, Mean Opinion Score), 
个 需要 在 干 人 类 观察 者 服务 的 主观 质量 测度 ， 很 久 以 来 被 认为 是 图 像 质量 度量 的 
最 好 方法 。 然 而 ，MOS 方法 代价 不 菲 ， 而 且 在 现实 应 用 中 太 慢 而 显得 没 用 。 

客观 图 像 质 量 评 价 研究 的 目的 是 设计 计算 模型 ， 使 其 能 够 准确 而 自动 地 预测 感 
知 的 图 像 质量 。 因 为 算法 提供 的 质量 的 数值 测度 是 没 用 的 ， 除 非 它们 与 人 类 的 主观 
性 具有 很 好 的 相关 性 ， 所 以 在 这 里 我 们 使 用 “预测 ”一 次 。 换 言 之 ， 算 法 应 该 预 
测 出 人 类 观察 者 将 要 报告 的 一 幅 图 像 的 平均 质量 。 

显然 ， 这样 的 客观 图 像 质 量 测度 的 成 功 制订 在 广阔 的 应 用 环境 中 具有 很 大 的 洪 
Fi, As, 它们 可 被 用 在 质量 控制 系统 中 监视 图 像 质 量 。 例 如 ， 图 像 采 集 系 统 可 以 
用 一 个 质量 指标 去 监视 并 上 自动 调整 自己 来 获得 最 好 质量 的 图 像 数 据 。 网 络 视频 服务 
天 可 以 检查 网 络 上 传输 的 数字 视频 质量 来 控制 和 分 配 流 资 源 。 鉴 于 互联 网 视频 源 最 
近 的 巨 幅 增长 ， 这 项 应 用 是 相当 重要 的 。 

第 二 ， 它 们 可 被 用 于 检测 图 像 处 理 系 统 和 算法 。 例 如 ， 如 采 可 以 用 一 些 图 像 去 
品 和 复原 算法 来 增强 数码 相机 拍摄 的 图 像 质量 ， 那 么 就 可 以 用 一 个 质量 指标 来 判定 
哪 一 个 提供 了 最 好 的 质量 结果 。 

第 三 ， 它 们 可 被 通 入 到 图 像 处 理 和 传输 系统 中 来 优化 系统 和 参数 设置 。 例 如 ， 
在 视觉 通信 系统 中 ， 图像 质 量 测度 能 在 编码 右 的 预 滤波 和 比特 分 配 算法 的 最 优 设 
计 ， 以 及 在 解码 器 的 重建 、 错 误 隐 藏 、 和 后 滤波 算法 的 最 优 设计 中 给 予 协助 。 

在 图 像 质 量 平均 方法 的 设计 和 选择 中 ， 沼 常会 有 精度 和 复杂 上 度 之 间 的 平衡 问 
题 ， 取 决 于 应 用 场景 。 

例如 ， 如 末 有 一 个 客观 系统 能 完全 仿真 人 类 视觉 系统 的 所 有 相关 方面 ， 包 括 其 内 置 
的 环境 知识 ， 那 么 它 应 该 能 够 提供 图 像 质量 的 精确 预测 。 然 而 ， 我 们 有 关 HVS 的 知识 
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和 我 们 有 关 环 境 的 模型 的 精妙 水 平 有 限 。 随 着 我 们 不 断 提高 在 这 些 领域 的 知识 水 平 ， 那 
么 可 以 预期 的 是 ， 与 人 类 视觉 机 制 非常 接近 的 图 像 质 量 评价 系统 就 会 制订 出 来 。 

然而 ， 这 样 的 系统 对 人 类 主观 质量 评价 的 预测 性 能 通 第 是 很 差 的 。 实 际 上 ， 尽 
管 这 些 质 量 评价 方法 用 作 理 论 算法 设计 的 解析 指标 是 相当 有 用 的 ， 但 长 期 以 来 对 于 
评价 真实 图 像 的 质量 人 们 认为 是 很 弱 的 ， 不 管 这 幅 图 像 是 否 被 处 理 过 。 











C.2 通用 的 图 像 质 量 指 标 





通用 图 像 质量 指标 (UIQI, Universal Image Quality Index) 容易 计算 且 可 用 于 各 种 
图 像 处 理应 用 中 。 它 是 一 个 数学 定义 的 测度 ， 因 为 两 个 原因 它 很 受 欢 迎 。 首 先 ， 它 们 容 
易 计 算 且 通 党 具有 低 的 复杂 度 。 其 次 ， 它 们 与 观察 条 件 和 单个 观察 者 无 关 。 尽 管 人 们 认 
为 在 人 类 感知 图 像 质 量 时 观察 条 件 起 到 重要 的 作用 ， 但 在 多 数 傅 况 下 它们 是 不 国定 的 ， 
而 且 图 像 分 析 系 统 通常 得 不 到 特定 的 数据 。 如 果 有 NN 种 不 同 的 观察 条 件 ， 那 么 一 个 依 
赖 观察 条 件 的 方法 就 会 产生 WN 种 不 同 的 度量 结果 ， 这 是 很 不 方便 使 用 的 。 此 外 ， 衡 量 
观察 条 件 、 计 算 条 件 参 数 并 输入 给 度量 系统 就 变 成 了 观察 者 的 责任 了 。 相 反 ， 一 个 独立 
于 观察 条 件 的 测度 传送 一 个 质量 数值 就 给 出 了 这 幅 图 像 质量 如 何 的 一 般 信息 。 

图 像 质量 指标 的 通用 性 意味 着 ， 该 方法 不 依赖 于 测试 图 像 、 观 察 条 件 或 个 别 观 
察 者 。 更 重要 的 是 ， 它 必须 可 用 于 各 种 图 像 处 理 且 对 于 不 同 种 类 的 图 像 失 真能 给 出 
有 意义 的 对 比 结果 。UIQI 试图 取代 目前 广泛 使 用 的 PSNR 和 MSE 技术 。 


C. 2.1 质量 指标 的 定义 


今 x = | Donn N] All y = Ve te Tg 2 iso. NI 分 别 是 原始 和 测 
试图 像 信和 号。 提出 的 质量 指标 定义 为 


























Q= 40% (C.4) 
(o2 +02) [(z)? +)? | 
其 中 ， 
ee ee (C.5) 
NG i? : NH): E 
o =H (y= (C. 6) 
oag e an) (C.7) 


这 里 x 是 原始 图 像 的 均值 ，y 是 测试 图 像 的 均值 。o 和 cy; 分 别 是 原始 和 测试 图 像 
的 方差 。 
协 方差 由 o, 表示 。0 的 动态 范围 是 [ -1，1] ， 仅 当 原 始 图 像 对 所 有 的 N 值 都 等 
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于 测试 图 像 才 会 有 最 好 的 Q 值 1。 当 测试 图 像 是 原始 图 像 碱 去 其 均值 两 倍 的 时 候 ， 出 现 

最 差 的 值 -1。 这 个 质量 指标 把 任何 失真 模型 化 为 三 个 因数 的 组 合 : 相关 度 损 失 量 、 亮 

度 失 真 ， 和 对 比 度 失真 。 为 了 理解 这 些 ， 我 们 把 O 的 定义 重 写 为 三 个 分 量 的 乘积 
0- Oxy 2x y 20,0, 








(C. 8) 





os0, (3) +O P+ 


|_| \_}/ HH 


相关 度 损 失 亮度 失真 对 比 度 失真 


第 一 个 分 量 是 原始 和 测试 图 像 之 间 的 相关 系数 ， 它 是 线性 相关 度 的 测度 。 它 取 
值 范围 从 1 到 -1， 当 测试 图 像 等 于 原始 网 像 乘 以 一 个 正 利 数 时 等 于 最 好 值 。 在 计 
算 原 始 图 像 和 测试 图 像 的 相关 度 之 后 的 第 二 和 第 三 分 量 中 出 现 了 相对 失真 。 第 二 分 
量度 量 了 原始 和 测试 岁 像 之 间 的 平均 亮度 ， 它 的 取 值 范围 是 [0，1] 。 当 原始 和 测 
试图 像 的 均值 相等 时 这 个 分 量 取得 最 大 值 。 信 号 的 方差 可 被 看 作 是 对 比 度 的 售 计 
值 ， 所 以 第 三 个 分 量度 量 了 两 幅 图 像 对 比 度 的 相似 程度 。 它 的 取 值 范围 也 是 
[0，1 ] ， 当 且 仅 当 方 差 相等 是 达到 最 大 值 。 


C. 2.2 在 图 像 中 的 应 用 


一 幅 图 像 包括 众多 像素 和 信和 号， 但 实际 上 单一 的 总 体质 量 值 被 认为 是 图 像 信 
号 ， 它 通常 是 非 平稳 的 ， 因 为 图 像 质量 常常 是 随 空间 而 变化 的 。 这 就 是 局 部 计算 统 
计 特征 然后 再 组 合 起 来 形成 一 个 总 体 测度 的 原因 。 用 于 局 部 区 域 的 度量 方法 是 滑动 
窗口 方法 。 大 小 为 B x 的 滑动 窗口 逐 像素 移动 ， 首 先 从 图 像 左 上 角 开 始 水 平移 
动 ， 然 后 垂直 地 经 过 图 像 的 所 有 行列 直到 右 下 角 ， 分 别 如 图 C. 2 ~ 图 C. 4 所 示 。 

age J = 
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图 C.2 滑动 窗口 (BxB) 在 水 平方 向 上 位 置 的 移动 [G11] 
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图 C.3 








滑动 窗口 (BxB) 在 垂直 方向 上 位 置 的 移动 [G1 | 





L(512) 





图 C.4 滑动 窗口 示例 


滑动 窗口 志 历 整个 图 像 之 后 ， 就 可 计算 总 体质 量 指标 。 滑 动 窗口 大 小 默认 设置 
为 B=8。 第 j 步 的 质量 指标 计算 为 O0， 总 体质 量 指标 如 下 给 出 
、 (C.9) 


M = 步 数 
对 于 图 像 大 小 为 LxL 滑动 窗口 大 小 为 B xB 的 情况 ， 滑 动 窗口 遍历 整个 图 像 


花费 的 步 数 导 是 [(L-B) +1)”, 





C.3 ”结构 相似 度 指标 


一 个 最 近 提 出 的 图 像 保 真 度 度量 方法 是 SSIM 指标 ， 它 在 度量 其 他 信和 号 保 真 度 
方面 也 是 高 效 的 。 作 为 原始 SIM 方法 基础 的 主要 哲学 是 人 类 视觉 系统 [Q5] ， 它 
高 度 适应 于 从 视觉 场景 中 抽取 结构 信息 。 因 此 ， 至 少 为 了 图 像 保 真 度 测 量 ， 保 持 信 
写 结构 应 该 是 一 项 重要 任务 。 相 应 地 ， 算 法 可 以 设法 度量 结构 失真 来 实现 图 像 保 真 
度 测 量 。 图 C. 5 [022] 玫 助 描述 结构 失真 和 非 结 构 失 真 之 间 的 区 别 。 在 图 中 ,， 非 
结构 失真 〈 有 之 度 改变 、 对 比 度 改 变 ， 伽 玛 失 真 和 空间 平移 ) 由 图 像 采 集 和 显 式 过 
程 中 周 于 环境 或 仪器 条 件 导 致 。 这 些 失真 没有 改变 视觉 场景 中 对 象 的 图 像 结构 。 然 
m, HERE CIES, Bol Ala ae) 明显 地 扭曲 了 对 象 的 图 像 结构 。 如 
果 我 们 把 人 类 视觉 系统 看 作 是 一 个 理想 的 信息 抽取 顺 ， 它 寻求 识别 出 视觉 场景 中 的 
对 象 ， 那 么 它 一 定 对 于 结构 失真 高 度 敏感 而 且 目 动 补偿 非 结 构 失 真 。 因 此 ,一 个 有 
效 的 客观 信号 保 真 度 测 度 。 应 该 能 模拟 这 种 功能 。 


















































伽 玛 失真 空间 平移 JPEG 块 效应 小 波 振 狼 
图 C.5 结构 失真 与 非 结 构 失 真 的 例子 [Q22] (2009 IEEE) 


结构 相似 度 测量 系统 框图 如 图 C.6 所 示 。 假定 x = |x,|i=1,2,...,N|l 和 
y= |y;1i=1,2,...,N| 是 两 个 长 度 有 限 的 图 像 信和 号， 而 且 已 经 彼此 对 齐 (例如 ， 
从 每 幅 图 像 中 抽取 的 空间 小 块 )， 其 中 NW 是 信号 样 值 (像素 ， 如 果 信 和 号 是 图 像 的 
W) 的 个 数 ，x; 和 yy 分别 是 x 和 y 中 的 第 i 个 样 值 。 
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如 有 果 我 们 认为 其 中 一 个 信号 具有 完美 的 质量 ， 那 么 相似 度 测 度 就 能 作为 第 二 个 
信号 质量 的 定量 测度 。 该 系统 把 相似 度 度量 的 任务 分 为 三 个 比较 : TEBE. MPEG BEAM 
结构 。 首 先 ， 比 较 每 个 信号 的 亮度 。 如 果 是 离散 信号 ， 这 被 估计 为 平均 强度 


N 


H, = ye (C. 10) 



































相似 度 测度 












结构 对 比 











图 C.6 结构 相似 度 测量 系统 框图 [Q13] (2004 IEEE) 
第 二 ， 我 们 从 信号 中 去 除 平均 强度 。 所 产生 离散 形式 的 信号 (x -人 ) 对 应 矢 

量 在 下 式 所 定义 的 超 平面 上 的 投影 
p3 x, = 0 (C.11) 


式 中 , x= |x, 17=1，2,... ，Ni ， 是 一 个 有 限 长 的 图 像 信和 号。 
我 们 利用 标准 差 (方差 的 平方 根 ) 作为 信号 对 比 度 的 估计 值 。 离 散 形 式 的 无 
偏 估计 由 下 式 给 出 











o, = a= (x; =p) (C. 12) 


对 比 度 的 比较 c(x, y) WAH o, 和 ,的 对 比 。 
第 三 ， 信 号 由 其 自身 的 标准 差 进行 标准 化 〈 相 除 ) ， 这 样 两 个 想 比较 的 信号 就 
有 具 有 单位 标准 差 。 在 这 些 标准 化 的 信号 [ (x -A,)vj 和 [(7 =- )/o,] 上， 就 可 以 
执行 结构 对 比 S(x, y)o 
最 后 ， 三 个 分 量 组 合 起 来 产生 一 个 总 体 相似 度 测 度 
S(x,y) =fU(x,y) ,c(x,y) ,s(x,y) ) (C. 13) 














(x,y) = 所 NA) 
c(x,y) =f(0, ,0,) 


S(x,y) -在 -人 Y 


T, T, 

重要 的 一 点 是 ， 这 三 个 分 量 是 相对 独立 的 。 例 如 ， 亮 度 和 /或 对 比 度 的 改变 不 
会 影响 图 像 的 结构 。 为 了 完成 (C.13) 中 相似 度 测 度 的 定义 ， 我 们 需要 定义 三 个 
PRA U(x, y), c(x, y) 和 s(x, y) URHE RŽ - )。 我 们 还 想 要 相似 度 测 度 
满足 如 下 特性 。 

1) 对 称 性 : S(x,y) =S(y,x)。 

2) 有 界 性 . S(x,y) <1, 

3) 最 大 值 唯一 性 : S(x,y) <1 SARS x =y 时 (在 离散 表示 形式 中 ，x, =y, 
对 所 有 i=1, 2,..., M) 

对 于 亮度 比较 ， 我们 定义 




















2 +C: 
Ks + ML, +C, 
其 中 包含 的 约束 量 C ÆN TEA w + TE Be PIN TT SY A AE. Fa, 
我 们 选择 





I(x,y) = (C. 14) 


C, =(K L)? (C. 15) 
式 中 , 工 是 像素 值 (对 于 8bit KERA BE 255) 的 动态 范围 ，K 和 1 是 一 个 小 党 
数 。 类 似 的 考虑 也 适用 于 后 面 描述 的 对 比 度 对 比 和 结构 对 比 。 方 程 (C. 14) 显然 
是 遵守 SSIM 的 三 个 特性 的 。 
方程 (C. 14) 也 与 Weber 定律 定性 地 一 致 ， 该 定律 广泛 用 于 HVS 中 明 适 应 
(又 叫 作 亮度 掩蔽 效应 ) 的 建 模 。 按 照 Weber 定律 ， 在 很 宽 范 围 的 亮度 值 上 ， 最 小 
可 和 党 (原文 : just-noticeable 译 者 注 ) 亮度 变化 A 近似 正比 例 于 背景 亮度 。 换 
句 话 说 ，HVS 对 相对 变化 敏感 而 不 是 绝对 亮度 变化 。 令 吧 表 示 相 对 于 背景 亮度 的 
SEE), RMR BSA 




















R=% -1 (C. 16) 
将 R 代入 方程 (C.14), 给 出 
T e (C.17) 





C 
14+(1+R)? + 一 
M, 


如 果 我 们 假定 C, 足够 小 (相对 于 jy) TRAR, IAL, y) 就 只 是 RR 的 一 
个 函数 ， 与 Webe 定律 定性 地 一 致 。 对 比 度 比 较 郴 数 具 有 类 似 形 式 


2 +C 
c(x,y) m ee Be Z (C. 18) 
oo, +C, 
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式 中 , C2= (KL), HK<I1. 

这 一 定义 又 一 次 满足 三 条 特性 。 这 个 函数 的 一 个 重要 特征 是 ， 对 于 同样 的 对 比 
度 变化 量 Ao =o, -av， 这 一 测度 对 于 高 基数 对 比 度 的 情况 比 对 于 低 基数 对 比 度 更 
不 敏感 。 这 与 AVS 的 对 比 度 掩蔽 特征 是 一 致 的 。 

在 亮度 求 差 和 方差 标准 化 之 后 进行 结构 对 比 。 特 别 地 ， 我 们 将 两 个 单位 矢量 
[ (x -p,)/o, | Fl (y -人 )《o,] 与 两 幅 图 像 的 结构 联系 起 来 ， 每 个 天 量 都 位 于 方程 
(C. 11) 定义 的 超 平面 上 。 它 们 之 间 的 相关 性 〈 内 积 ) 是 一 种 定量 化 结构 相似 度 简 
单 而 有 效 的 测度 。 注 意 ， 在 [ (x -u,)/ o, MI (y -人 )《o,] 之 间 的 相关 度 等 于 x 和 
之 间 的 相关 系数 。 因 而 ， 我 们 定义 结构 比较 吨 数 如 下 : 




















T, + Gs 





s(x,y) “Fae, (C. 19) 


与 对 待 亮度 和 对 比 度 测度 一 样 ， 我 们 在 分 子 和 分 布 中 引入 了 一 个 小 常数 C,。 
0 的 离散 形式 可 被 估 计 为 


Cee = AÈ (x; = Ms) (Y: - u, ) (C. 20) 


还 应 注意 ,，s (x, y) 可 以 渠道 负 值 。 最 后 ， 我 们 把 三 个 比较 结果 (C14), 
(C.18) 和 (C.19) 组 合 起 来 并 命名 得 到 的 信号 间 相 似 度 测度 为 SSIM 指标 ， 表 达 
如 下 








SSIM(x,y) =[1(x,y) ]*Le(x,y) ]?Ls(x,y) ]” (C. 21) 
HH, a>l, B>1l, 且 y>1 都 是 用 来 调节 三 个 分 量 相 对 重要 性 的 参数 。 容 易 证 
明 ， 这 个 定义 满足 上 面 给 出 的 三 个 条 件 。 为 了 简化 表达 式 ， 我 们 设置 w=B8=7y=1 
和 C=C,/2。 这 样 就 得 到 了 SSIM 指标 的 一 种 特定 形式 
SSIM (x,y) = Fer +C, (22 +C, | Oy +C,/2 


2 2 2, 2 
stu +C, Jo, +0, +C,)\o,0, + 0,/2 


» th, +O, /\o, +0, +0, 
实际 上 ， 我 们 常常 需要 整 幅 图 像 的 单一 总 体质 量 测度 。 我 们 使 用 平均 SSIM 
(MSSIM) 指标 来 评价 总 体 图 像 质 量 . 
MSSIM( X,Y) = a> SSIM(x,,y,) (C. 23) 


式 中 ,XX 和 了 分 别 是 参考 图 像 和 失真 图 像 ;x, 和 yy 是 在 第 j 个 局 部 窗口 上 的 图 像 内 
容 ; M 是 图 像 局 部 窗口 的 数量 。 

为 了 用 SSM 指标 度量 图 像 质量 ， 局 部 (对 图 像 块 ) 使 用 比 全 局 (对 整 幅 图 
像 ) 使 用 更 可 取 。 局 部 窗口 内 计算 SSIM 是 相当 平凡 的 ， 窗 口 逐 像素 移动 遍历 整 幅 
图 像 。 这 样 的 滑动 窗口 方法 如 图 C. 7 所 示 。 




















| : ~ | | SS . i 1. | 
a a 2s 2 pE ee rT 
LU gt B th [| 
Ge im d e bm ce tes ce ok wy 
a ae ae ie a a ae ee 
Cw be deo ku Cte be De dw | 
j Ko eee: evel: wm ee es ee a 
图 像 义 图 像 了 


第 片 1 个 局 部 窗口 


i et or ey a G —— 


| ey dn 、 | i. k 

l | ae | L | L l | 

DNAS EE ea ers 

j ee ee pk i ee Bae ee 

| | te e A tid fs tw 汪 

ne eae ee ae a ae 1 i 
图 像 X 图 像 Y 


图 C.7 计算 SSIM 的 滑动 窗口 。 这 里 举例 的 滑动 窗口 大 小 为 3 x3 [H38] (2010 IEEE) 


C.4 市 有 失真 的 图 像 


TEA, RIXE “Lena. gif” 图 像 加 入 不 同类 型 的 失真 ， 并 计算 各 种 图 像 对 的 
均 方 误差 (MSE) 和 质量 指标 (Q)。 传 统 的 误差 度量 方法 主要 是 MSE ARA A R 
比 (PSNR, Peak Signal to Noise Ratio) 。 这 些 指标 因 其 计算 简单 而 且 独 立 于 观察 条 
件 和 个 别 观察 者 而 受到 广泛 使 用 。 在 另 一 方面 ， 质 量 指标 的 设计 是 通过 把 任何 失真 
模型 化 为 三 个 因素 的 组 合 : 相关 度 损失 、 亮 度 失真 和 对 比 度 失 真 。 其 性 能 明显 好 于 
广 为 使 用 的 失真 指标 均 方 误差 ( 见 图 C. 8)。 

1) 椒盐 噪声 其 本 身 表 现 为 随机 出 现 的 白色 和 黑色 像素 。 对 于 这 种 类 型 噪声 
的 一 种 有 效 的 去 噪 方法 是 使 用 中 值 滤波 条 。 在 快速 瞬 变 现象 如 错误 切换 发 生 的 情况 
下 ， 椒 盐 品 声 就 会 出 现在 图 像 中 。 因 为 椒盐 曝 声 而 失真 的 图 像 看 起 来 就 像 图 C.9 
那样 。 

2) 乘 性 斑点 噪声 : 斑点 噪声 是 一 种 颗粒 噪声 ， 固 有 存在 于 图 像 中 并 降低 了 图 
像 质 量 。 斑 点 噪声 是 一 种 乘 性 噪声 ， 即 它 在 任何 区 域 都 是 正比 于 局 部 灰 度 级 的 。 信 
号 和 噪声 彼此 统计 独立 。 信 和 号 元 系 的 均值 和 方差 等 于 局 部 区 域 的 均值 和 方差 ， 而 区 
域 的 中 心 就 是 那个 像素 ( 见 图 C. 10) 。 
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图 C.10 乘 性 斑点 噪声 [Q29] 





3) 图 像 拌 动 : 图 像 的 拌 动 通常 使 得 图 像 不 能 聚焦 。 在 图 像 处 理 中 ， 一般 可 以 
通过 令 图 像 和 一 个 低 通 滤 波 需 进行 卷 积 来 获得 。 在 这 个 特例 中 ， 我 们 用 高 斯 抖动 
( 见 图 C. 11) 。 








图 C.11 图 像 抖 动 [Q29 ] 








4) 对 比 度 拉 伸 : 出现 低 对 比 度 图 像 常常 是 因为 光照 条 件 弱 或 非 均 匀 ， 或 成 像 
fear AAW). EA BREA 


V = au O<Su<a (C. 24a) 
=B(u- -a)+va, au <b (C. 24b) 
=y(u- -b)+vb, bSu<K<L (C. 24c) 


变换 的 斜率 要 选择 得 大 于 整个 拉 伸 区 域 。 参 数 a 和 b 可 以 通过 检查 图 像 直方 图 
来 得 到 。 例 如 ,像素 最 频繁 出 现 的 灰 度 级 范围 最 可 能 被 拉 伸 以 改善 场景 的 整体 可 见 
Eo KE, RHEE a 考虑 为 大 于 1 (WA C. 12)。 

5) 高 斯 噪声 : 高 斯 噪声 是 一 种 统计 噪声 ， 它 具有 正 态 分 布 的 概率 密度 函数 
(也 称 为 高 斯 分 布 ) 。 换 名 话说， 噪声 的 取 值 是 高 斯 分 布 的 。 它 经 筑 用 作 加 性 日 品 
声 以 生成 加 性 高 斯 白 噪 声 (AWGN, Additive White Guass Noise) ( ILAI C. 13) 

6) 均值 平移 算法 : 举止 平移 算法 通过 让 每 个 点 与 数据 集 的 概率 密度 峰值 建立 
联系 对 n 维 数据 集 (也 就 是 说 ， 每 个 数据 点 由 一 个 n 维和 撩 量 来 描述 ) 进行 分 类 。 
对 每 个 点 ， 均 值 平移 法 通过 定义 一 个 半径 为 r 的 球形 窗口 并 计算 位 于 该 窗口 内 的 点 
的 均值 计算 其 相关 的 峰值 。 然 后 算法 把 窗口 平移 到 均值 并 重复 耳 到 收敛 ， 也 就 是 
说 ， 直 到 平移 低 于 一 个 国 值 (例如 0. 01 ) 。 在 每 次 欠 代 过 程 中 ， 窗 口 会 移动 到 一 个 
更 为 密集 分 布 的 数据 集 部 分 直到 达到 一 个 峰值 ， 在 峰值 处 数据 在 窗口 内 均匀 分 布 
( 见 图 C. 14)。 
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图 C. 13 ”高 斯 噪声 [Q29] 





图 C. 14 均值 平移 算法 [Q2] 
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7) JPEG 压缩 : 原始 图 像 的 大 小 受到 压缩 ， 图 像 的 MSE 被 计算 出 来 。 这 种 情 
况 的 压缩 比 是 4. 8574, FA JPEG 进行 压缩 又 要 保持 一 个 特定 MSE 是 很 困难 的 。 尽 
管 仔细 观察 这 些 图 像 可 能 会 发 现 三 种 视觉 问题 ， 块 效应 、 拌 动 和 振 铃 ,但 JPEG 的 
第 一 维度 解决 方案 更 为 主要 。 为 了 进行 JPEG 压缩 原始 图 像 要 转换 成 单 色 度 图 像 ， 
然后 使 用 JPEG 编译 码 (独立 软件 组 [JP9]) 公用 软件 包 对 图 像 进行 编码 ( 见 图 
C. 15 和 表 C. 1)。 














C. 5 测试 结果 


失真 的 Lena AUR: 见 表 C. 1 和 图 C. 16; 
失真 的 Goldhill 图 像 : 见 表 C. 2 和 图 C. 17; 
失真 的 Couple 图 像 : 见 表 C. 3 和 图 C. 18。 





图 C.15 JPEG 压缩 [Q29] 


表 C.1 Lena 图 像 测 试 结果 列表 [Q29] 


序 号 图 像 均 方 误差 PSNR/dB Q SSIM MSSIM 
1 原始 图 像 0 无 穷 大 1 1 1 
2 均值 平移 224. 9993 24. 6090 0. 9894 0. 9890 0. 9894 
3 对 比 度 拉 伸 225. 0932 24. 6072 0. 9372 0. 9494 0. 9470 
4 脉冲 椒盐 噪声 225. 3684 24. 6019 0. 6494 0. 7227 0. 6723 
5 乘 性 斑点 噪声 224. 7482 24. 6138 0. 4408 0. 5009 0. 4883 
6 加 性 高 斯 噪声 225. 1804 24. 6055 0. 3891 0. 4508 0. 4390 
7 Bah 224. 1397 24. 6256 0. 3461 0. 6880 0. 6007 


8 JPEG He 3 215. 1139 24. 8041 0. 2876 0. 6709 0. 5572 
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表 C.2 图 像 Goldhill 的 测试 结果 列表 [Q29] 





序 号 图 像 均 方 误差 PSNR/dB Q SSIM MSSIM 
1 原始 图 像 0 无 穷 大 1 1 1 
2 均值 平移 121 27. 3029 0. 9928 0. 9927 0. 9929 
3 对 比 度 拉 伸 120. 9002 27. 3065 0. 9498 0. 9698 0. 9672 
4 脉冲 椒盐 噪声 120. 2122 27. 3313 0. 8290 0. 8643 0. 8402 
5 乘 性 斑点 噪声 121. 4297 27. 2876 0. 6758 0.7032 0. 7067 
6 加 性 高 斯 噪声 121. 1260 27. 2984 0. 6151 0. 6556 0. 6553 
7 抖动 121. 9371 27. 2694 0. 5080 0. 6671 0. 6372 
8 JPEG 压缩 117. 4739 27. 4314 0. 4963 0. 6824 0. 6385 









原始 图 像 ,MSE-0， 均值 平移 ,MSE=224.9933， 对 比 度 拉 伸 ,MSSIM=0.9470， 


Q=1,PSNR-inf dB Q=0.9894,PSNR=24.6090dB MSE=225.0932,Q=0.9372, 
SSIM=1,MSSIM=1 SSIM=0.9890,MSSIM=0.9894 PSNR=24.6072dB SSIM=0.9494 


a 
. 





FUSER IRI ST 
aa 
ATARI RIE 


fe 


2 
脉冲 椒盐 噪声 ,MSE=225.0932， 乘 性 斑点 噪声 ,MSE=224.7482， 加 性 高 斯 噪声 ,.MSE=225.1804， 
Q=0.6494, PSNR=24.6019dB Q=0.448, PSNR=24.61dB Q=0.3891,PSNR=24.6055dB 
SSIM=0.7227,MSSIM=0.6723 = SSIM=0.5009,MSSIM=0.4883 SSIM=0.4508, MSSIM=0.4390 





$429, MSE=224. 1397, JPEG Hs 4f,MSE=215.1139 
Q=0.3461,PSNR=24.6256dB Q=0.2876,PSNR=24.8041dB 
SSIM=0.6880, MSSIM=0.6 SSIM=0.6709,MSSIM=0.5572 


图 C.16 有 失真 的 Lena 图 像 
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表 C.3 Couple 图 像 测试 结果 列表 [Q29] 





序 号 图 像 均 方 误差 PSNR/dB Q SSIM MSSIM 
1 原始 图 像 0 无 穷 大 1 1 1 
2 均值 平移 80. 9952 29. 0462 0. 9947 0. 9940 0. 9947 
3 对 比 度 拉 伸 80. 9063 29. 0510 0. 9621 0. 9631 0. 9657 
4 脉冲 椒盐 噪声 80. 8358 29. 0548 0. 8806 0. 9057 0. 8874 
5 乘 性 斑点 噪声 81. 2837 29. 0308 0.7183 0.7613 0. 7553 
6 加 性 高 斯 噪声 80. 6841 29. 0629 0.7039 0.7511 0. 7444 
7 抖动 81. 2747 29. 0313 0. 7500 0. 8329 0. 8238 
8 JPEG 压缩 81. 9302 28. 994 0. 6761 0. 8013 0.7771 








E 均值 平移 ,MSE=121， 对 比 度 拉 伸 ,MSE= 脉冲 椒盐 噪声 ,MSE= 
Ly pa = > 
ele yaa 0， PSNR27.30dB,0=0,9928, 120.9002, PSNR= 120.2122, PSNR= 
SSIMcL MSI] — SSIM=0.9927,MSSIM=  27.3065,Q=0.9498, 27.3313dB,Q=0.8290, 
l 0.9929 SSIM=0.9698, SSIM=0.8643, 
MSSIM=0.9672 MSSIM=0.8402 





乘 性 斑点 噪声 ,MSE= 加 性 高 斯 噪声 ,MSE= 抖动,MSE=121.9371， JPEG 压 缩 ,MSE=117.4739， 


121.4297,PSNR=27.2876dB, 121.1260, PSNR= PSNR=27.2694dB, PSNR=27.4314dB, 
Q=0.6758,SSIM=0.7032,  27.2984dB,Q=0.6151, Q=0.5080,SSIM=0.6671, Q=0.4963,SSIM=0.6824, 
MSSIM=0.7067 SSIM=0.6556, SSIM=0.6372 MSSIM=0.6385 


MSSIM=0.6553 


图 C. 17 有 失真 的 Goldhill 图 像 


0 是 简单 的 ， 而 且 与 传统 的 MSE 和 PSNR 相 比 ， 数 学 模型 似乎 是 一 个 更 好 的 
图 像 质 量 测度 。 这 种 成 功 是 由 于 0 度量 结构 失真 的 强大 能 力 ， 结 构 失 真 发 生 在 图 
像 退化 过 程 中 ， 与 MSE 相 比 它 对 误差 能 量 更 为 敏感 。 毫 无 疑问 ，HVS 的 精确 建 模 
总 是 好 一 些 ， 但 良好 定义 的 模型 ， 其 数学 框架 会 逐步 完善 以 实现 成 功 的 质量 指标 。 

从 图 像 形成 的 角度 来 看 ，SSIM 指标 是 结构 相似 度 哲 学 的 一 种 特定 实现 。SSIM 
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原始 图 像 .MSE-0， 均值 平移 ， MSE- 80.9952， 对 比 度 拉 伸 ,MSE- 脉冲 椒盐 噪声 ,MSE-= 


PSNR=INF dB,Q=1, PSNR=29.0462dB,Q=0.9947, 80.9063,PSNR= 80.8358,PSNR= 
SSIM=1,MSSIM=1 SSIM=0.9940,MSSIM=0,9947  29.0510dB,Q=0.9621, — 29.0548dB,Q=0.8806, 
SSIM=0.9631 SSIM=0.9057 


MSSIM=0.9657 





乘 性 斑点 噪声 ,MSE= 加 性 高 斯 噪声 ,MSE= 拉动 ,MSE=81.2747， JPEG 压 缩 ,MSE=81.9302， 


81.2837,PSNR= 80.6841,PSNR= PSNR=29.0313dB, PSNR=28.994dB, 
29.0308dB,Q=0.7183, 29.0629dB,Q=0.7039, Q=0.7500, Q=0.6761,SSIM=0.8013 
SSIM=0.7613 SSIM=0.7511 SSIM=0.8329 MSSIM=0.7771 
MSSIM=0.7553 MSSIM=0.7444 MSSIM=0.8238 


图 C. 18 带 有 失真 的 Couple 图 像 


的 关键 成 功 是 结构 信息 和 结构 失真 的 概念 。 

SSIM 指标 呈现 了 度 ii 了 为 。 在 某 些 失真 情况 下 如 拌 劲 和 JPEG 
压缩 ，MSSIM 是 一 个 比 UIQI 更 好 的 指标 ， 这 是 由 于 SSIM 中 包括 了 避免 不 稳定 性 的 
HAC, 和 C,。 即 使 不 同 失 真 的 MSE 是 相同 的 ，SSIM 和 MSSIM 真正 地 代表 了 视觉 
(感知 ) 质量 。 读 者 可 以 参考 [Q3，Q6，Q7 ，Q9，Q12，Q20，Q34，U4] 。 


专题 研究 C” 图像 知觉 质量 评价 指标 : 结构 相似 度 


本 专题 关于 结构 相似 度 指标 ， 它 表示 基于 结构 信息 的 知觉 图 像 质 量 。SSIM 是 
一 个 客观 图 像 质量 指标 且 优 于 传统 的 定量 测度 诸如 MSE 和 PSNR。 本 专题 说 明了 基 
于 SSIM 的 图 像 质量 评价 并 描述 了 针对 人 类 视觉 知觉 的 有 效 性 。 通 过 回顾 下 面 列 出 
的 论文 ， 将 非常 有 助 于 理解 SSIM 及 其 应 用 。 
1) SSIM 的 一 般 形 式 是 
SSIM(x,y) = [lx,y)] [ceCzy)][SCz,y)] 
注意 a >0、B >0 Ally >0 都 是 用 来 调节 三 个 分 量 相对 重要 性 的 参数 。 其 中 x，y 是 图 像 区 





























20,0, +C, 十 (3 
Be, I(x, y) = oy y) =e sce, y) = 227%, Ix, y) 是 亮度 比 
w FC Oo”. y+,” y +C? 


较 结果 、c(x, y) 是 对 比 度 比 较 结果 ，S(Cxz，y) 是 结构 对 比 HR, C: G, GÆ 
Ho Mrs Mys Cr, Fy, C MEZER [Q13] PFH 14, 15, 16 所 定义 。 高 斯 





HMA PALA AI sh w(n,, n) = exp (ndash $3” 

请 写 一 个 Matlab Kt my_ssim， 其 输入 是 两 幅 图 像 和 aw，B8，y，C| ，C，， Ces 
输出 是 两 幅 图 像 的 SSIM_ metric 和 SSIM_map。 SSIM_metric 是 SSIM_map 的 均值 ， 它 
由 一 个 局 部 滑动 窗口 (11 x11 像素 ) 来 计算 。 您 可 以 从 https ://ece. uwaterloo. ca/ ~ 
Z70wang/research/ssim 下 载 SSIM 的 Matlab 实现 程序 作为 参考 。 

2) 像 论 文中 那样 ,设置 a, B, y, Ci, CG, G, IPRA BRAT AAR 
但 均 方 误差 (MSE) 相同 的 Lena 图 像 (512 x512 ) 。 测 试图 像 可 以 在 链接 https :// 
ece. uwaterloo. ca/ ~ z70wang 中 “ Universal image quality index” 处 下 载 。 请 计算 
SSIM_metric 并 给 出 SSIM_map。 您 会 发 现 与 MSE 相 比 ，SSIM_metric 与 人 类 的 质量 
知觉 更 为 相关 。 

3) 与 上 一 条 一 样 将 C,, CG, G 固定 并 设 a 为 1。 任 选 5 对 B，y， 例 如 
[B=1, y=2], [B=1, y=3], [B=1, y=4], |B=1, y=4], [B=3, y=1], 
并 将 您 的 函数 作用 于 失真 的 Lena 图 像 ee dy 。 然 后 找 出 产生 
与 您 对 图 像 质量 感知 最 相关 的 SSIM_metric。 没 有 和 争取 答案 ， 完 全 取决 于 您 自己 对 
图 像 质量 的 意见 。 

2008 年 4 H, IVT 汉诺威 会 议 引 入 了 SSIM [Q20]。 本 附录 包括 了 整个 ITU-T 
文档 。 


+n? 


Jana =1 25% 11s 

















附录 D H. 264 中 模式 相关 的 DCT/DST 实现 方案 


本 附录 基于 Priyadarshini Anjanappa [E111] 的 学 位 论文 。 
欲 知 详情 ， 请 参见 UTA 的 EE5359 课程 网 址 http ://www-ee. uta. edu/Dip/Cour- 
ses/ EES359/index. html 上 的 Thesis/ Project 标题 。 


-ik 


D.1 AJ 


on 


模式 相关 的 DCT/DST 是 一 种 混合 变换 编码 方案 ， 将 正弦 和 余弦 变换 之 间 的 切 
换 纳 入 到 了 帧 内 预测 模式 ， 从 而 开发 块 间 的 相关 性 。 从 一 侧 预 测 时 ， 预 测 残 差 能 量 
随 着 我 们 远离 边界 而 增加 。 正 弱 变 换 较 好 地 适应 于 这 种 预测 残 差 统计 规律 
[E130]。 已 经 证 明 ， 帧 内 预测 后 ， 沿 着 垂直 (水平 ) WUT ISEB OKE) 模 
式 的 最 优 变换 就 是 [El129] [E120] PÉS ÄERER KLT, Han FE DST-VII 
的 正弦 变换 来 计算 . 





ET], 2 i DT 
SY VON  2N+1 

不 断 发 展 的 HEVC 标准 化 过 程 使 用 统一 的 帧 内 预测 ， 其 中 多 达 34 种 不 同方 向 
的 帧 内 预测 模式 可 被 分 为 如 下 3 2K; 

。 第 1 类 和 斜 向 模式 如 图 D. 1 所 示 : 这 里 或 者 从 上 方 的 行 或 者 从 左 侧 的 列 中 的 
解码 像素 中 进行 预测 。 垂 直 模 式 和 水 平 模式 是 这 种 斜 向 模式 的 特例 ， 分 别 发 生 在 预 
测 方向 是 垂直 或 水 平 的 时 候 ; 

。 第 2 类 斜 向 模式 如 图 D. 1 所 示 : 这 里 ， 既 从 上 方 行 又 从 左 侧 列 的 像素 来 进 
行 了 预测 ; 

。 直流 模式 : 这 里 ， 从 所 有 得 到 的 解码 像素 平均 值 中 进行 预测 。 




















图 D.1 a) 第 1 类 和 斜 向 模式 ， 只 从 上 方 行 预 测 








b) 第 1 RRHH: 只 从 左 侧 列 预测 ce) 第 2 类 斜 癌 模式 [E131 ] 





从 统一 帧 内 预测 模式 到 用 于 HEVC 标准 化 [E130] [E131] 早期 阶段 的 DCT/ 
DST 的 映射 如 表 D. 1 所 示 。 


表 D.1 从 帧 内 预测 模式 到 用 于 HM2.0 的 DCT/DST 的 映射 





模 式 统一 帧 内 预测 方向 Zz H 水 平 变换 
0,5,6,12 ,13 ,22 ,23 ,24 ,25 VER to VER +8 DST DCT 
1,8,9,16,17,30,31,32 ,33 HOR to HOR +8 DCT DCT 
2 DC DCT DST 
3,4,10,11,18,19,20,21 VER -8 to VER -1 DST DCT 
714,15 ,26 ,27 ,28 ,29 HOR -8 to HOR -1 DST DST 


D2 参考 软件 中 变换 的 实现 万 案 


JM 软件 [H30] 是 H.264/AVC 标准 的 参考 软件 。 图 D. 2 给 出 了 DCT 正 变换 
和 逆 变 换 的 快速 实现 方案 的 流程 图 , 在 IM 软件 [H4] 中 它 用 于 每 个 4 x4 块 的 行 
和 列 。 不 需要 乘法 ， 只 要 加 法 和 移 位 运算 。 用 在 H. 264 的 DCT 是 DCT-I 的 整数 近 
似 ， 通 过 一 个 线性 变换 不 = Ex 把 一 个 NN 长 的 矢量 x 映射 到 一 个 新 的 变换 系数 矢量 
对 ,其 中 五 第 行 第 n 列 的 元 素 定义 如 下 








IP, k=0, 1, ++, NN-1， 是 频率 下 标 ; n=0, 1, =, N-1 是 样 值 下 标 ， 对 
k>0, co = 和 c =1, 











图 D.2 H.264 的 DCT 正 变换 (E) 和 逆 变 换 (下 ) 的 快速 实现 [H4] 


HM 软件 [E54] 是 HEVC 的 参考 软件 。 用 于 HM 软件 的 DST-VII 快速 实现 包 
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括 加 法 、 乘 法 和 移 位 运算 。 


D.3 ”提出 的 方案 


D. 3.1 从 帧 内 预测 模式 到 DCT/DST 的 映射 


类 似 于 HEVC 的 映射，H. 264 的 9 种 面向 4 x4 亮度 块 的 帧 内 预测 模式 可 被 分 
类 为 第 一 类 斜 向 模式 ， 第 二 类 和 斜 向 模式 和 直流 模式 。 提 出 的 H. 264/AVC 帧 内 预测 
模式 的 映射 见 表 D. 2 。 


D.3.2 ”获得 H. 264 的 DST 矩阵 


H. 264/ AVC 的 DCT 下 变换 矩阵 是 





1 
2 1 Ey 

下 变换 DCT =| ， 

1 


-2 2 -1 


表 D.2 提出 的 从 帧 内 预测 模式 到 H. 264/AVC 中 DCT/DST 的 映射 方案 





模 式 帧 内 预测 方向 a Ef aE ih 水 平 变换 
0, 3,7 EH, SAAT, FAENA DST DCT 
1, 8 水 平 ， 水 平 向 上 DCT DST 
2 直流 DCT DCT 
4,5, 6 AAP, HERZL, AAP DST DST 





DCT ERMI ETT IE ee 
第 1 行 : 2 

第 2 行 : V10 =3. 1623 

第 3 行 : 2 

第 4 行 : V10 =3. 1623 

用 在 H. 264/AVC 中 的 DCT 变换 逆 和 矩阵 是 


1 1 1 1 
2 172 -1⁄2 -1 
Wash DCT = 
这 变换 i si =j 1 
1⁄2 -1 1 -172 





DCT AA E ITIER ey 





53247: /5/2 =1.5811 
ets fF 2 

5447; /5/2 =1.5811 
用 于 HEVC 的 DST 矩阵 是 


29 55 74 
74 74 0 
DST 矩阵 = 
MF $4 =29 =74 
55 -84 74 





用 于 HEVC 的 DST 矩阵 行 基 矢 量 范 数 : 
第 1 行 ，V16398 =128. 0547 
第 2 行 ，V16498 =128. 1718 
第 3 行 ，V16398 =128. 0547 
$54 íT: 16398 =128. 0547 


84 
-74 
55 
-29 





为 了 在 H. 264 中 执行 同样 的 DST， 要 使 沿 着 DST 矩阵 每 一 行 的 范 数 等 于 DCT 


FE MEAL AT AY TE 


为 了 得 到 H. 264 的 DST 正 变换 矩阵， 要 让 HEVC 所 用 的 DST 的 行 除 以 因数 


DST 矩阵 行 “x” AR 





DCT 正 变换 矩阵 行 “*” 的 范 数 


H. 264 所 获得 的 改良 DST 正 变换 矩阵 是 


0. 4529 0. 8590 1. 1558 1.3119 


1.8257 1.8257 
TEAS DST = 


- 1. 8257 


1.3119 -0.4529 -1.1558 0.8590 
1.3582 -2.0744 1.8274 -0.7161 





改良 DST 正 变 换 和 矩阵 的 行 基 矢 量 的 范 数 : 
第 1 行 : 2 

第 2 行 : 3. 1622 

第 3 行 : 2 

第 4 行 : 3. 1622 





可 以 看 出 ,改良 DST 正 变换 和 矩阵 行 矢 量 范 数 与 DCT 正 变换 和 矩阵 相同 。 
为 了 得 出 H. 264 的 DST MERER, H HEVC 所 用 的 DST 矩阵 行 除 以 因数 


DST EBET “x” 的 范 数 





DCT 逆 变 换 和 矩阵 行 “x” 的 范 数 


H. 264 所 用 的 改良 DST 逆 变 换 和 矩阵 是 ; 
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0.4529 0.8590 1.1558 1.3119 
l 0.9129 0.9129 0 -0. 9129 
ae 0.4529 -0.8590 -1.1558 1.3119 
0.6791 -1.0372 0.9137 -0.3581 
改良 DST wi ARR He EI TE EA: 
第 1 行 : 2 
第 2 行 : 1. 5812 
第 3 行 : 2 
第 4 行 : 1.5812 
可 以 看 到 ,改良 DST IER MENS TES DCT 正 变换 矩阵 相同 。 


D. 3.3 H.264/AVC 参考 软件 中 DCT/DST 的 实现 


改良 DST 矩阵 不 是 整数 和 矩阵， 因而 H. 264 参考 软件 JM 18.4 [H30] 执行 的 是 
和 矩阵 乘法 而 不 是 快速 实现 算法 。 已 经 证 明 ， 移 阵 乘法 能 给 出 像 H. 264 整数 DCT 快 
速 实现 一 样 精确 的 结果 。 主 档次 用 于 视频 序列 。 编 码 视频 序列 可 以 从 [V5] 下载。 
编码 过 程 用 处 理 器 为 Intel i7 Quad 4, 2.0 GHz， 内 存 为 8GB 的 系统 来 执行 。 所 用 的 
操作 系统 是 Windows 7, HEVC 默认 快速 实现 方案 的 性 能 分 析 也 使 用 HM8. 0, 
[E58] 视频 序列 用 帧 内 主 档次 进行 编码 。 用 于 评价 性 能 的 视频 序列 有 HD (1920 x 
1080, 1280 x720), WVGA (832 x480) 和 WQVGA (416 x240) [G16]。 只 有 视 
频 序列 的 第 一 帧 I WL) 进行 编码 。 每 个 序列 的 编码 结果 一 一 比特 率 对 PSNR, H 
特 率 节 约 百分比 (BD- 比 特 率 ) 和 绝对 PSNR 增益 (BD-PSNR) 一 一 都 列 于 表 中 。 
对 于 每 个 序列 还 给 出 了 不 同 分 辨 率 下 的 RD 曲线 图 。BD-PSNR 和 BD- 比 特 率 
[E79] [Q032] 用 于 分 析 RD (KRA) 曲线 图 的 性 能 。 负 值 的 BD- 比 特 率 或 者 正 
值 的 BD-PSNR 表示 较 好 的 编码 效率 。 

为 了 分 析 的 需要 ，JM18.4 [H30] 编码 器 配置 文件 改变 了 下 列 参数 设置 ; 

e FramesToBeEncoded = 1 

e SourceWidth =416, 832, 1280, 1920 

e SourceHeight =240, 480, 720, 1080 

© OutputWidth =416, 832, 1280, 1920 

e OutputHeight =240, 480, 720, 1080 

e FrameRate = 30 

e ProfileIDC =77 

e LevellDC =50 

e IntraPeriod =0 

e IDRPeriod =0 

e OPISlice =16, 20, 24, 28 
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e RDOptimization = 1 
e Transform8x8 Mode = 0. 
为 了 分 析 的 需要 ，HM8.0 [E54] 编码 器 配置 文件 改变 了 下 列 参 数 设 置 ， 


e IntraPeriod = — 1 
e QP=16, 20, 24, 28 
e RDOQ =1 


为 了 分 析 的 需要 ，HM8.0 [E54] 输入 序列 配置 文件 改变 了 下 列 参数 设置 : 
© FrameRate =30 

e FramesToBeEncoded = 1 

® SourceWidth =416, 832, 1280, 1920 

e SourceHeight =240, 480, 720, 1080 


D.4 BD-PSNR 和 BD- 比 特 率 的 计算 


BD-PSNR 和 BD- 比 特 率 分 别 表 示 两 幅 RD 曲线 图 之 间 的 平均 PSNR 和 比特 率 之 
# [E79], 

e 通过 对 应 于 QP =16, 20, 24, 28 的 四 个 数据 点 拟 合 一 个 曲线 图 

o 数据 点 是 BD PSNR 的 Y-PSNR 值 和 BD 率 的 比特 率 值 

。 通过 这 四 个 数据 点 由 形 如 下 式 的 三 次 多 项 式 可 得 一 个 很 好 的 内 插曲 线 

SNR =a +b x bit +c x bit’ +d x bit? 

其 中 要 确定 a,，5b,，c,，d 使 得 曲线 通过 所 有 的 数据 点 

。 RD 曲线 之 间 的 插值 由 高 比特 率 主导 。 因 此 考虑 比特 率 的 对 数值 来 计算 
BD 率 

。 同样 ， 插 值 可 以 作为 SNR 的 函数 来 完成 如 下 : 

bit =a +b x SNR +c x SNR? +d x SNR? 

。 基于 内 插 ， 找 到 一 个 曲线 积分 表达 式 

。 平均 差 值 是 积分 之 差 除 以 积分 间隔 

XA [Q32] 的 计算 BD-PSNR 和 BD- 比 特 率 的 MATLAB 实现 程序 用 于 以 上 








D.5 性 能 分 析 


D.5.1 WQVGA (416 x240) 序列 的 测试 结 


WQVGA (416 x240) 序列 的 测试 结果 分 别 见 表 D.3 ~ 表 D.6 和 图 D.3 ~ 
Al D. 5。 


表 D.3 
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三 个 416 x 240 序列 比特 率 和 PSNR 的 比较 
(用 DCTZDST AY H. 264/ AVC 与 默认 H. 264/ AVC 相 比 ) 





默认 H. 264/ AVC 


用 DCT/DST 的 H. 264/ AVC 

















序列 名 称 QP 比特 率 Y-PSNRU-PSNRV-PSNR 比特 率 Y-PSNRU-PSNRV-PSNR 
( kbit/s) (dB) ( kbit/s) ( dB) 
RaceHorses 16 10105. 6847. 74447. 20147. 377 10306. 3247. 15547. 20147. 377 
20 7556. 1644. 08444. 03044. 497 7662. 7243. 61744. 03044. 497 
24 5429. 7640. 49641. 31341. 726 5476. 0840. 19841. 31341. 726 
28 3792. 2437. 09738. 89439. 324 3801. 1236. 93638. 89439. 324 
BlowingBubbles 16 11159. 5247. 20246. 29247. 172 11401. 246. 49446. 29247. 172 
20 8124. 0043. 12743. 18744. 521 8249. 0442. 66743. 18744. 521 
24 5575. 9239. 53640. 61541. 987 5617. 6839. 25340. 61541. 987 
28 3744. 0036. 38538. 32339. 879 3730. 8036. 23438. 32339. 879 
BQSquare 16 11502. 7247. 33747. 54047. 689 11832. 4846. 70447. 54147. 689 
20 8756. 6443. 55044. 76145. 304 8965. 4443. 09044. 76145. 304 
24 6485. 7639. 94842. 49943. 097 6625. 2039. 48342. 49943. 097 
28 4740. 7236. 51740. 76141. 378 4814. 1636. 22740. 76141. 378 
F D.4 BD-PSNR 与 BD- 比 特 率 
(A DCT/DST 的 H. 264/ AVC 与 默认 H. 264/ AVC 相 比 ) 
序列 名 称 BD-PSNR/dB BD- 比 特 率 ( % ) 
RaceHorses —0.4913 4.775 
BlowingBubbles - 0. 4852 5. 1894 
BQSquare -0.7315 6. 2691 
#D.5 三 个 416 x240 序列 的 比特 率 和 PSNR 的 比较 
(H. 264/AVC 与 HEVC) 
默认 H. 264/AVC 默认 HEVC 
序列 名 称 QP 比特 率 Y-PSNRU-PSNRV-PSNR 比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) (kbit/s) (dB) 
RaceHorses 16 10105. 6847. 74447. 20147. 377 8411. 5247. 301747. 243647. 3423 
20 7556. 1644. 08444. 03044. 497 6175. 2043. 826444. 370044. 7900 
24 5429. 7640. 49641. 31341. 726 4414. 5640. 540341. 552642. 2303 
28 3792. 2437. 09738. 89439. 324 2962. 8037. 159239. 077839. 5112 
BlowingBubbles 16 11159. 5247. 20246. 29247. 172 9757. 9246. 870746. 163647. 3226 
20 8124. 0043. 12743. 18744. 521 6872. 8842. 840743. 421644. 8203 
24 5575. 9239. 53640. 61541. 987 4662. 9639. 453840. 893842. 4269 
28 3744. 0036. 38538. 32339. 879 2977. 4436. 322038. 330139. 8608 
BQSquare 16 11502. 7247. 33747. 54047. 689 9799. 9246. 900347. 691247. 8703 
20 8756. 6443. 55044. 76145. 304 7368. 4843. 245944. 845345. 4624 
24 6485. 7639. 94842. 49943. 097 5380. 5639. 723942. 449743. 1106 
28 4740. 7236. 51740. 76141. 378 3788. 8836. 268640. 492941. 1079 





R D.6 三 个 416 x240 序列 的 BD-PSNR 和 了 BD- 比 特 率 
(H. 264/ AVC 与 HEVC) 





序列 名 称 BD-PSNR/dB BD- 比 特 率 ( % ) 
RaceHorses 2.0212 ~ 17.735 
BlowingBubbles 1.4722 ~ 14. 2433 
BQSquare 1. 8785 - 14. 6427 


Y-PSNR/dB 


Y-PSNR/dB 


“RaceHorses 416x240 30.yuv” 


7 

















42 
41 z 
OA —— 默认 也 264 









































40 
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到- 默认 HEVC 
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比特 率 /(kbit/s) 
图 D. 3 RaceHorses 序列 Y-PSNR 随 比 特 率 的 变化 
“BlowingBubbles 416x240 50.yuv” 

48 

47 

46 

45 

44 

43 

42 

41 
一 - 默认 H.264 

40 

a = 模式 相关 的 DCT/DST 
~- 默认 HEVC 
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图 D. 4 BlowingBubbles 序列 Y-PSNR 随 比 特 率 的 变化 曲线 
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“BQSquare 416x240 60.yuv” 














Y-PSNR/dB 
上 
N 











H —— 默认 H.264 

40 

= 模式 相关 的 DCT/DST 

5 ~ 全 默认 HEVC 

H 7 

36 T T T T T T T 1 
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比特 率 /(kbit/s) 
图 D.5 BQSquare 序列 Y-PSNR 随 比 特 率 的 变化 曲线 


D.5.2 WVGA (832 x480) 序列 的 测试 结 


WVGA (832 x 480) 序列 的 测试 结果 分 别 见 表 D.7 ~ 表 D.10 和 图 D.6 ~ 


I D. 8。 


序列 名 称 


表 D.7 


QP 


三 个 832 x 480 序列 的 比特 率 和 PSNR 比较 
(FY DCT/DST AY H. 264/ AVC 与 默认 H. 264/ AVC 相 比 ) 





默认 H. 264/ AVC 
比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) 


使 用 DCTZDST 的 H. 264/ AVC 
比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) 





BQMall 


Keiba 


PartyScene 


16 
20 
24 
28 
16 
20 
24 
28 
16 
20 
24 
28 


33409. 6846. 85846. 7947. 763 

22413. 8443. 27044. 40645. 660 
14934. 9640. 54342. 35243. 492 
10274. 4037. 90140. 49641. 472 
23370. 2447. 05448. 83149. 288 
15057. 3643. 80846. 65947. 422 
9540. 2441. 21744. 52845. 296 

6162. 4838. 68342. 59443. 321 

52926. 9647. 39746. 54747. 006 
40601. 2843. 34543. 24943. 794 
29612. 1639. 49240. 32340. 846 
20975. 7636. 07337. 93538. 350 


34025. 2846. 34346. 79047. 763 
22548. 4842. 96744. 40645. 660 
14905. 2040. 27842. 35243. 492 
10238. 1637. 64140. 49641. 472 
22886. 8846. 62648. 83149. 288 
14381. 0443. 61146. 65947. 422 
9150. 2441. 13644. 52845. 296 

5952. 2438. 59442. 59443. 321 

54041. 2846. 56946. 54747. 006 
41196. 0042. 70543. 24943. 794 
29968. 0839. 06040. 32340. 846 
21224. 4035. 76037. 93538. 350 
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表 D.8 


三 个 832 x 480 序列 的 BD-PSNR 和 BD- 比 特 率 比 较 
(用 DCTZDST AY H. 264/ AVC 与 默认 H. 264/ AVC FELL) 





序列 名 称 BD-PSNR/dB BD- 比 特 率 ( % ) 
BQMall - 0. 3462 4. 6475 
Keiba 0. 0665 - 1. 1473 

PartyScene - 0. 6996 6. 0669 


表 D.9 = 832 x 480 序列 的 比特 率 和 PSNR 比较 (H. 264/AVC 与 HEVC) 


序列 名 称 QP 





默认 H. 264/A VC 
比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) 





默认 HEVC 
比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) 





BQMall 16 
20 

24 

28 

Keiba 16 
20 

24 

28 

PartyScene 16 
20 

24 


28 


33409. 6846. 85846. 7947. 763 


22413. 8443. 27044. 40645. 660 


14934. 9640. 54342. 35243. 492 


10274. 4037. 90140. 49641. 472 


23370. 2447. 05448. 83149. 288 


15057. 3643. 80846. 65947. 422 


9540. 2441. 21744. 52845. 296 


6162. 4838. 68342. 59443. 321 


52926. 9647. 39746. 54747. 006 


40601. 2843. 34543. 24943. 794 


29612. 1639. 49240. 32340. 846 


20975. 7636. 07337. 93538. 350 


28161. 8446. 516546. 618447. 8058 


17480. 4042. 923644. 466845. 7898 


11940. 2440. 467842. 417543. 6628 


8022. 4837. 887140. 457541. 4867 


19457. 2846. 768049. 037649. 5021 


11888. 6443. 723646. 839147. 4610 


7589. 7641. 327244. 668445. 4265 


4845. 3638. 965242. 505243. 2928 


47571. 6047. 083946. 243946. 7408 


35791. 4442. 979643. 382543. 9579 


25742. 4039. 225640. 608441. 0488 


17608. 5635. 777237. 993838. 4236 


表 D.10 =~ 832 x480 序列 的 BD-PSNR 和 BD- 比 特 率 比 较 (H. 264/AVC 5 HEVC) 





序列 名 称 BD-PSNR/dB BD- 比 特 率 ( % ) 
BOMall 1.4754 -17.985 
Keiba 1. 3704 - 20. 3635 

PartyScene 1. 2773 - 10. 2026 
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图 D.6 BQMall 序列 Y-PSNR 随 着 比特 率 变化 的 曲线 
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一 - 默认 H.264 
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图 D. 7 Keiba 序列 Y-PSNR 随 着 比特 率 变化 的 曲线 
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“PartyScene 832x480 50.yuv” 


47 
a 

















43 
ae [2 FZ! 
E ee 
a 一 默认 H264 

40 

A 2 24 “= 模式 相关 的 DCT/DST 

38 | lS LY = 默认 HEVC 

37 

36 

35 

10000 20000 30000 40000 50000 60000 
比特 率 /(kbit/s) 


图 D.8 PartyScent 序列 Y-PSNR 随 比 特 率 的 变化 曲线 


D.5.3 HD (1920 x1080) 序列 的 测试 结 


HD (1920 x 1080) 序列 的 测试 结果 分 别 见 表 D.11 ~ 表 D.14 和 图 D.9 ~ 


图 D. 11。 


序列 名 称 


表 D. 11 


三 个 1920 x 1080 序列 的 比特 率 和 PSNR 的 比较 
( 带 有 DCT/DST 的 H. 264/AVC 与 默认 H. 264/AVC 相 比 ) 








默认 H. 264/ AVC 
比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) 


带 有 DCTZDST 的 H. 264/ AVC 
比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) 





BQTerrace 


Cactus 


Tennis 


180787. 6847. 91846. 75147. 157 
129416. 8843. 88643. 90645. 222 
86247. 3640. 01641. 80243. 543 
55845. 6036. 87340. 04242. 078 
181654. 0847. 06645. 91246. 730 
115491. 3642. 57842. 64444. 690 
65324. 8839. 47640. 41442. 913 
39115. 9237. 38939. 03941. 249 
104600. 1646. 51346. 91548. 134 
55239. 8442. 99445. 37846. 868 
28356. 9641. 27544. 12445. 431 
17067. 1239. 59242. 90643. 879 


186144. 7247. 18846. 75147. 157 
132517. 4443. 32243. 90645. 222 
87560. 6439. 66541. 80243. 543 
56470. 8036. 61040. 04242. 078 
183171. 1246. 41945. 91246. 730 
115657. 2042. 30342. 64444. 690 
64902. 2439. 39040. 41442. 913 
38875. 6837. 36039. 03941. 249 
103009. 2046. 18346. 91548. 134 
54156. 4842. 91945. 37846. 868 
27876. 9641. 24344. 12445. 431 
16907. 2839. 53442. 90643. 879 
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表 D.12 三 个 1920 x1080 序列 的 BD-PSNR 和 BD- 比特 率 的 比较 
( 带 有 DCT/DST 的 H. 264/AVC 与 默认 H. 264/AVC) 





Sequencename BD-PSNR/dB BD- 比 特 率 ( % ) 
BQTerrace -0. 6369 7. 2692 
Cactus -0.2102 3. 5532 
Tennis -0. 0290 -0. 4242 


表 D.13 三 个 1920 x1080 序列 的 比特 率 和 PSNR 的 比较 
(H. 264/ AVC 与 HEVC) 











默认 H. 264/AVC 默认 HEVC 
序列 名 称 QP 比特 率 Y-PSNRU-PSNRV-PSNR 比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) (kbit/s) (dB) 
BQTerrace 16 180787. 6847. 91846. 75147. 157 149503. 4447. 992946. 711547. 3451 
20 129416. 8843. 88643. 90645. 222 108491. 7644. 619944. 039745. 3542 
24 86247. 3640. 01641. 80243. 543 72256. 5640. 630342. 008743. 7107 
28 55845. 6036. 87340. 04242. 078 42464. 6437. 064840. 133442. 1350 
Cactus 16 181654. 0847. 06645. 91246. 730 159421. 6846. 814745. 760246. 8177 
20 115491. 3642. 57842. 64444. 690 95585. 7642. 540342. 870744. 8581 
24 65324. 8839. 47640. 41442. 913 46632. 9639. 315840. 471843. 1484 
28 39115. 9237. 38939. 03941. 249 26866. 3237. 431039. 033641. 4139 
Tennis 16 104600. 1646. 51346. 91548. 134 87396. 2446. 492947. 204748. 5307 
20 55239. 8442. 99445. 37846. 868 34297. 6842. 867345. 474947. 0398 
24 28356. 9641. 27544. 12445. 431 18642. 4841. 534044. 320745. 6447 
28 17067. 1239. 59242. 90643. 879 11315. 2840. 227443. 023744. 0927 


K D.14 三 个 1920 x 1080 序列 的 BD-PSNR 和 BD- 比 特 率 的 比较 
(H. 264/ AVC 与 HEVC) 





Sequencename BD-PSNR/dB BD- 比 特 率 (% ) 
BQTerrace 2. 1567 —21. 9681 
Cactus 1. 3025 一 19. 1702 


Tennis 1. 4856 — 33. 1268 





Y-PSNR/dB 


Y-PSNR/dB 


“BOQOTerrace_1920«1080_60-yuv” 
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图 D.9 BQTerrace 序列 Y-PSNR 随 比 特 率 的 变化 曲线 
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图 D. 10 ”cacuts 序列 Y-PSNR 随 比 特 率 的 变化 曲线 
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图 D. 11 tennis 序列 Y-PSNR 随 比 特 率 的 变化 曲线 


D. 5.4 高 清 (1080 x720) 序列 的 测试 结 
高 清 (1080 x 720) 序列 的 测试 结果 分 别 见 表 D.15 ~ 表 D. 18 和 图 D.12 ~ 
图 D. 14 。 


表 D.15 =~ 1080 x720 序列 比特 率 和 PSNR 的 比较 
( 带 有 DCT/DST 的 H. 264/AVC 与 默认 H. 264/AVC) 





默认 H. 264/AVC 


带 有 DCTZDST 的 H. 264/ AVC 





序列 名 称 QP ”比特 率 Y-PSNRU-PSNRV-PSNR 比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) (kbit/s) (dB) 

Vidyol 16 35621. 0447. 79048. 74549. 461 35020. 8047. 61548. 74549. 461 
20 21832. 0844. 88447. 69748. 595 21250. 0844. 77947. 69748. 595 
24 13267. 6842. 71146. 40447. 183 12959. 0442. 64046. 40447. 183 
28 8747. 2840. 59944. 96545. 540 8509. 4440. 50144. 96545. 540 

Vidyo3 16 39600. 0047. 53649. 56449. 662 38542. 3247. 28949. 56449. 662 
20 24599. 2844. 25248. 88948. 689 23705. 2844. 15648. 88948. 689 
24 14207. 5242. 02347. 63047. 027 13705. 2042. 00447. 63047. 027 
28 8987. 5240. 04846. 40645. 260 8718. 2439. 96946. 40645. 260 

Vidyo4 16 31649. 2848. 21549. 82150. 004 30944. 1648. 02249. 82150. 004 


20 19866. 0045. 40249. 18449. 379 
24 12456. 2443. 05747. 78347. 964 
28 8162. 8840. 82946. 10546. 256 


19135. 2045. 27049. 18449. 379 
12089. 2842. 98047. 78347. 964 
7959. 3640. 65746. 10546. 256 
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表 D. 16 


三 个 1080 x720 序列 的 BD-PSNR 和 BD- 比 特 率 的 比较 


( 带 有 DCT/DST 的 H. 264/AVC 与 默认 H. 264/AVC) 





序列 名 称 BD-PSNR/dB BD- 比 特 率 (% ) 
Vidyol 0. 0216 -0.5157 
Vidyo3 0. 0851 —1. 8388 
Vidyo4 0. 0422 - 0. 8327 


表 D.17 =~ 1080 x 720 序列 比特 率 和 PSNR 的 比较 〈H. 264/AVC 与 HEVC) 


序列 名 称 QP 





默认 H. 264/A VC 
比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) 





默认 HEVC 
比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) 





26735. 7647. 579949. 206550. 0380 
14940. 9644. 893847. 811148. 8625 
8738. 8842. 924146. 568347. 4347 
5621. 5241. 135945. 123145. 7768 
30262. 0847. 313550. 330550. 3281 
16935. 3644. 292649. 066248. 9256 
9007. 4442. 108747. 699247. 2448 
5832. 9640. 554746. 410345. 2869 
23430. 2447. 888650. 454850. 6957 
13652. 6445. 389749. 350149. 5508 
8428. 0843. 373147. 847248. 1619 


5282. 8841. 358746. 196946. 3486 


BD- 比 特 率 ( % ) 





-33. 5926 


- 33. 2696 


— 33. 2327 


Vidyol 16 35621. 0447. 79048. 74549. 461 
20 21832. 0844. 88447. 69748. 595 
24 13267. 6842. 71146. 40447. 183 
28 8747. 2840. 59944. 96545. 540 
Vidyo3 16 39600. 0047. 53649. 56449. 662 
20 24599. 2844. 25248. 88948. 689 
24 14207. 5242. 02347. 63047. 027 
28 8987. 5240. 04846. 40645. 260 
Vidyo4 16 31649. 2848. 21549. 82150. 004 
20 19866. 0045. 40249. 18449. 379 
24 12456. 2443. 05747. 78347. 964 
28 8162. 8840. 82946. 10546. 256 
表 D.18 三 个 1080 x720 序列 BD-PSNR 和 BD- 比 特 率 的 比较 
(H. 264/AVC 与 HEVC) 
序列 名 称 BD-PSNR/dB 
Vidyol 2. 0530 
Vidyo3 1.9721 
Vidyo4 2. 0659 
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图 D. 12 vidyol 序列 Y-PSNR 随 比 特 率 的 变化 曲线 
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图 D. 13 vidyo3 序列 Y-PSNR 随 比特 率 的 变化 曲线 
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vidyo4 序列 Y-PSNR 随 比 特 率 的 变化 曲线 


D.5.5 用 于 RaceHorse 序列 DCT/DST 不 同 组 合 的 测试 结 


为 了 观察 到 提出 方案 的 性 能 ，DCTZDST 的 组 合用 于 9 种 情况 ， 从 仅 有 水 平 模 
式 和 仅 有 垂直 模式 开始 ， 然 后 扩展 到 第 1 类 、 第 2 类 、 第 1 和 2 类 的 组 合 、 以 及 进 
一 步 扩 展 到 全 部 所 提 方 案 中 描述 的 类 的 组 合 ， 最 后 扩展 到 所 有 模式 的 DST。 测 试 结 
AN FER D. 19 和 表 D. 20 中 。 相 应 的 曲线 如 图 D. 15 所 示 。 


表 D.19 DCT/DST 组 合用 于 不 同 帧 内 预测 模式 的 比特 率 和 PSNR 的 比较 
(默认 H. 264/ AVC 与 带 有 不 同 横 式 下 DCT/DST 的 H. 264/ AVC) 


用 于 帧 内 预测 模式 的 DST QP 








默认 H. 264/ AVC 
比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) 


带 有 DCT/DST 的 H. 264/AVC 
比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) 





DST 只 用 于 模式 1 16 
20 


24 


DST 只 用 于 模式 1 和 8 16 


10105. 6847. 74447. 20147. 377 


7556. 1644. 08444. 03044. 497 


5429. 7640. 49641. 31341. 726 


3792. 2437. 09738. 89439. 324 


10105. 6847. 74447. 20147. 377 


7556. 1644. 08444. 03044. 497 


5429. 7640. 49641. 31341. 726 


3792. 2437. 09738. 89439. 324 


10100. 4047. 74847. 20147. 377 


7527. 3644. 05244. 03044. 497 


5435. 5240. 52441. 31341. 726 


3804. 4837. 17338. 89439. 324 


10151. 5247. 71047. 20147. 377 


7559. 5244. 02144. 03044. 497 


5439. 6040. 51041. 31341. 726 


3788. 8837. 14338. 89439. 324 





用 于 帧 内 预测 模式 的 DST 


DST 只 用 于 模式 0 


DST 只 用 于 模式 0,3,7 


DST 只 用 于 模式 0,1,3 ,7 


DST 只 用 于 模式 0,1,3,7,8 


DST 只 用 于 模式 4,5 ,6 


模式 相关 的 DST 


DST 用 于 所 有 模式 
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默认 H. 264/ AVC 
比特 率 Y-PSNRU-PSNRV-PSNR 
(kbit/s) (dB) 


10105. 6847. 74447. 20147. 377 
7556. 1644. 08444. 03044. 497 
5429. 7640. 49641. 31341. 726 
3792. 2437. 09738. 89439. 324 
10105. 6847. 74447. 20147. 377 
7556. 1644. 08444. 03044. 497 
5429. 7640. 49641. 31341. 726 
3792. 2437. 09738. 89439. 324 
10105. 6847. 74447. 20147. 377 
7556. 1644. 08444. 03044. 497 
5429. 7640. 49641. 31341. 726 
3792. 2437. 09738. 89439. 324 
10105. 6847. 74447. 20147. 377 
7556. 1644. 08444. 03044. 497 
5429. 7640. 49641. 31341. 726 
3792. 2437. 09738. 89439. 324 
10105. 6847. 74447. 20147. 377 
7556. 1644. 08444. 03044. 497 
5429. 7640. 49641. 31341. 726 
3792. 2437. 09738. 89439. 324 
10105. 6847. 74447. 20147. 377 
7556. 1644. 08444. 03044. 497 
5429. 7640. 49641. 31341. 726 
3792. 2437. 09738. 89439. 324 
10105. 6847. 74447. 20147. 377 
7556. 1644. 08444. 03044. 497 
5429. 7640. 49641. 31341. 726 


3792. 2437. 09738. 89439. 324 


( 续 ) 
带 有 DCT/DST 的 H. 264/AVC 
比特 率 Y-PSNRU-PSNRV-PSNR 
( kbit/s) ( dB) 


10119. 8447. 74647. 20147. 377 
7539. 8444. 09844. 03044. 497 
5423. 5240. 49741. 31341. 726 
3787. 6837. 14738. 89439. 324 
10193. 2847. 66447. 20147. 377 
7583. 2844. 49744. 03044. 497 
5422. 8040. 41341. 31341. 726 
3801. 6037. 11838. 89439. 324 
10175. 5247. 64247. 20147. 377 
7582. 3243. 99044. 03044. 497 
5423. 2840. 43841. 31341. 726 
3798. 0037. 12438. 89439. 324 
10238. 6447. 57147. 20147. 377 
7602. 0043. 94244. 03044. 497 
5453. 7640. 42041. 31341. 726 
3795. 8437. 12138. 89439. 324 
10291. 6847. 66347. 20147. 377 
7666. 8043. 94944. 03044. 497 
5508. 4840. 39341. 31341. 726 
3822. 9637. 05138. 89439. 324 
10306. 3247. 15547. 20147. 377 
7662. 7243. 61744. 03044. 497 
5476. 0840. 19841. 31341. 726 
3801. 1236. 93638. 89439. 324 
18232. 3244. 35149. 69849. 648 
9331. 6839. 72744. 47144. 959 
5510. 8837. 40541. 33041. 779 


3755. 5235. 51038. 89439. 324 
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表 D.20 BD-PSNR 与 BD- 比 特 率 
(默认 H. 264/ AVC 与 将 DCT/DST 用 于 不 同 帧 内 预测 模式 的 H. 264/AVC) 



































用 于 帧 内 预测 模式 的 DST BD-PSNR/dB BD- 比 特 率 (% ) 
DST 只 用 于 模式 1 0. 0192 -0. 1817 
DST 只 用 于 模式 1 和 8 - 0. 0277 0. 2627 
DST 只 用 于 模式 0 0. 0239 一 0. 2468 
DST 只 用 于 模式 0,3 ,7 0. 0678 -0. 7543 
DST 只 用 于 模式 0,1,3 ,7 - 0. 0844 0. 7942 
DST 只 用 于 模式 0,1,3,7,8 -0. 1595 1. 4838 
DST 只 用 于 模式 4,5,6 - 0. 0236 0. 1937 
模式 相关 的 DST -0. 4913 4. 775 
用 于 全 部 模式 的 DST -6.3851 82. 9101 
用 于 规定 模式 的 DST 
50 
49 
48 
47 
46 á 
= 45 A 
R 44 p 
Z 43 rÁ 
Z 42 £ 
a 41 > 
> 40 rá 
39 # 
38 f 
37 
36 
35 








0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 
比特 率 M(kbits) 
== 默认 H.264 
-上 -情况 1: DST 只 用 于 水 平 模式 
下 情况 2: DST 只 用 于 水 平和 水 平 向 上 模式 
一 一 倩 况 3: DST 只 用 于 垂直 模式 
一 一 情况 4: DST 只 用 于 垂直 ， 左 下 对 角 和 垂直 向 左 模式 
-情况 5: DST 只 用 于 水 平 ， 垂 直 、 左 下 对 角 和 垂直 向 左 模式 
一 一 情况 6: DST 只 用 于 水 平 ， 水平 向 上 上， 垂直 ， 左 下 对 角 ， 和 垂直 向 左 模式 
一 一 情况 7: DST 只 用 于 模式 4，5 和 6 
-一 情况 8: 模式 相关 的 DST 
情况 9: DST 用 于 所 有 的 模式 


图 D.15 DCT/DST 用 于 不 同 帧 内 预测 模式 RaceHorses 序列 的 Y-PSNR 随 比 特 率 的 变化 曲线 


D.6 结论 与 未 来 的 工作 


负 的 BD- 比 特 率 或 正 的 BD-PSNR 表示 较 好 的 编码 效率 。HEVC 给 出 高 于 默认 
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H. 264 几乎 1.5 ~2 分 贝 的 性 能 改善 。 分 析 了 12 个 输入 视频 序列 中 的 4 个， 结果 表 
HH H. 264 中 模式 相关 的 DCT/DST 会 提高 某 些 性 能 。 三 个 高 清 序列 (1080 x 720) 
都 给 出 了 轻微 的 性 能 改善 : (IRF 0.05 分 贝 的 PSNR 增益 和 低 于 1% 的 节约 比特 率 。 
当 把 模式 相关 的 DCT/DST 用 于 帧 内 预测 模式 的 不 同类 别 时 ， 我 们 观察 到 只 对 水 平 
和 垂直 模式 有 一 点 可 见 的 轻微 改善 。 

多 数 情 况 下 性 能 的 下 降 可 能 由 于 许多 原因 : 

。 使 用 了 非 整 数 变 换 系 数 ， 导 致 了 重建 输出 精确 度 的 下 降 。 

e H. 264 的 预测 模式 只 有 9 种 ， 而 HEVC 有 33 种 (角度 模式 )。 在 H. 264 的 
情况 下 ，DCTZDST 组 合用 于 数量 较 少 的 预测 方向 上 。 

。 这 里 没有 考虑 最 优 预测 模式 的 选择 以 及 相应 的 模式 相关 的 DCTZDST。 

为 了 实现 大 的 性 能 改善 ， 可 以 考虑 许多 其 他 因素 。 

。 性 能 取决 于 每 块 的 帧 内 预测 方向 ， 可 以 改进 变换 系数 的 扫描 顺序 来 获得 更 
好 的 性 能 ， 而 不 是 在 H. 264 中 使 用 传统 的 Z 型 扫描 。 

e 可 以 使 用 率 失 真 优化 (RDO, Rate Distortion Optimization) 来 将 模式 相关 的 
DCT/DST 仅仅 用 于 性 能 最 好 的 模式 。 通 过 使 用 H. 264 的 高 档次 ， 较 高 分 辨 率 的 视 
频 序 列 可 用 于 分 析 目 的 。 

。 还 可 以 把 分 析 推 广 到 4 x4 亮度 块 以 外 的 块 ， 也 可 针对 色 度 帧 内 预测 残 差 展 














附录 E H. 264 的 实现 软件 IM, Intel IPP 
和 x 264 的 性 能 分 析 与 比较 


本 附录 基于 Santosh Kumar Muniyppa 的 专题 。 

欲 知 详情 ， 请 参见 UTA 的 EE5359 课程 网 址 (2010 秋季 ) http://www-ee. uta. edu/ 
Dip/Courses/ EE5359/ index. html 上 的 专题 。 

H. 264 的 实现 软件 JM, Intel IPP 和 x264 的 性 能 分 析 与 比较 。 

HER: 实现 H. 264 软件 如 JM 软件 ，Intel IPP 和 x264 的 性 能 分 析 。 

动机 : H. 264 是 多 年 来 广泛 接受 的 视频 标准 ， 而 且 出 现 了 大 量 的 实现 软件 ， 即 
JM (Joint Model; 联合 模型 ) [H30], Intel IPP (Integrated Performance Priminitives , 
集成 性 能 原 语 ) [X3], x264 [X1], FFmpeg (Fast Forward Moving Picture Experts 
Group， 人 快速 前 向 运 动 图 像 专家 组 ) [X4]。 因 而 性 能 分 析 专 题 将 有 助 于 选择 一 个 针 
对 您 应 用 和 需求 的 特定 编译 码 需 。 

问题 陈述 : 在 此 ， 我 们 使 用 不 同 的 测试 序列 基于 软件 的 性 能 展开 对 H. 264 软 
{F JM, Intel IPP 和 x264 的 分 析 和 比较 。 








E.1 H.264 


H. 264/ AVC 是 ITU-T 视频 编码 专家 组 ( VCEG, Video Coding Experts Group ) 
和 ISO/IEC 运动 图 像 专家 组 (MPEG, Moving Picture Experts Group) 的 最 新 的 视频 
编码 标准 。H. 264 是 一 个 新 的 视频 压缩 方案 ， 已 经 成 为 全 球 消费 电子 应 用 和 个 人 电 
脑 的 数字 视频 标准 。 特 别 地 ，H. 264 已 经 被 选 为 下 一 代 光 盘 格 式 的 关键 压缩 方案 
(编译 码 融 ) ， 即 高 清 DVD 和 蓝光 光盘 (有 时候 叫 作 BD 或 BD-ROM ) 。 

H. 264 已 被 MPEG 采纳 为 面向 数字 媒体 交换 的 MPEG-4 中 的 视频 压缩 方案 。 
H. 264 有 时 候 也 被 称 为 “MPEG-4 第 10 部 分 ” (MPEG-4 规格 的 部 分 ) 或 者 叫 作 
“AVC (MPEG 的 高 级 视频 编码 )”。 

H. 264/ AVC 在 率 失真 效率 方面 实现 了 明显 的 提高 ， 同 时 , 与 现存 的 标准 如 
MPEG-2 [S13] [H17] 视频 相 比 ， 一 般 能 节约 两 倍 的 比特 率 。 

H. 264 档次 如 图 E. 1 所 示 。 

H. 264 的 编码 框图 如 图 E. 2 所 示 。 

H. 264 的 解码 框图 如 图 E. 3 所 示 。 
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图 E.1 H.264 的 档次 [H25] (2006 IEEE) 
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图 E.2 H. 264 的 编码 框图 [H25] (2006 IEEE) 
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图 E.3 H. 264 解码 框图 [H25] (2006 IEEE) 
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E.2 JM 软件 


JM 软件 是 ISO/IEC MPEG 联合 视频 小 组 (JVT) 和 ITU-T 的 VCEG 的 产品 。 

IM 软件 的 最 新 版 本 号 是 18 。 既 文 持 平面 的 又 文 持 各 行 扫描 的 /打包 的 原始 图 
像 数 据 ( 即 yuv，rgb)。 输 入 文件 是 一 个 配置 文件 (文本 文件 )， 文件 中 的 部 分 合 
格 参 数 如 下 . 

。 输入 文件 ; 

© 竺 编码 帧 数 ; 

o 输出 帧 宽度 和 高 度 ; 

© 档次 、 级 别 的 选择 ; 

e GOP 大 小 ; 

© 比特 率 控制 。 








E.3 x264 


x264 Wis HERBIE RP, a, Ae RSF ee th AWTS AY 
判定 算法 。 此 外 ，x264 使 用 了 许多 原始 操作 的 组 装 优 化 代码 。 将 x264 与 JM FALL, 
平均 起 来 ，x264 比 JM 快 50 倍 ， 且 提供 接近 于 JM 的 率 失 真性 能 [X2]. 

它 支持 原始 视频 数据 (yuv4mpeg 或 只 对 4:2:0 格式 的 MYm) ， 输 出 文件 格式 是 
.264，. mkv，mp4。 输 入 通过 命令 提示 来 提供 。 可 以 提供 的 部 分 参数 如 下 : 

。 档次 ; 

© 率 控 制 ，; 

e COP 大 小 ; 

。 量化 参数 ; 

© WR, 


E.4 Intel IPP 





Intel 的 集成 性 能 原 语 (Intel IPP) 是 一 个 内 容 广泛 面向 多 核 高 度 优 化 的 软件 函数 
库 ， 用 于 数字 媒体 和 数据 处 理应 用 。Intel IPP 提供 几 千 个 优化 的 函数 ， 涵 盖 了 频繁 使 用 
的 基本 算法 。Intel IPP 函数 设计 的 交付 性 能 超越 了 优化 编译 器 单独 能 交付 的 性 能 [X5]. 

1. 已 知 的 限制 

o 编码 需 假 定 输入 视频 数据 对 象 包含 了 格式 为 YUV420 的 帧 ; 

。 编码 回 不 支持 调整 帧 大 小 。 因 而 输入 和 输出 帧 大 小 应 该 是 相同 的 ; 

。 只 支持 主 档次 和 高 档次 ; 
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© 输入 文件 是 h264. par; 

o 源 文 件 ; 

。 竺 编码 帧 数 ; 

e WK, 

2. 目标 

使 用 QCIF 和 HDTV 视频 测试 序列 ， 针 对 不 同 的 档次 和 不 同 的 比特 率 的 详细 分 


析 将 会 展开 。 人 性 能 比较 将 基于 这 些 参数 进行 : 


。 编码 和 解码 时 间 (s); 

® 压缩 比 ; 

。 峰值 信 噪 比 ; 

。 结构 相似 度 指标 [Q13 ] 。 

3. 所 用 的 视频 序列 
基本 档次 和 主 档次 ， 如 图 E. 4 所 示 ; 





(F | 


图 了 .4 akiyo_qcif. y4m 


。 高 档次 ， 如 图 了 上 . 5 所 示 。 








图 E.5 sintel_720. y4m 





4. CIF 和 QCIF AY Y, Cb 和 Cr 的 差别 
CIF 和 QCIF 的 Y，Cb 和 Cr 的 差别 如 图 E. 6 所 示 。 


7 176 2 > 176 2 
A A EA 


360 像 素 180 像 素 180 像 素 


180 像 素 90 像 素 90 像 素 
Y Ch Gi 


图 E.6 CIF I QCIF 的 4:2:0 格式 


E.5 JM (17.2) 性 能 分 析 


1. 基本 档次 的 JM 性 能 

视频 序列 akiyo_qcif. y4m 

编码 帧 数 : 100 

帧 组 ， IBPBPBPBPB 

量化 参数 : 10, 28, 40, 51 
参考 帧 数 : 3 (ULE. 7 和 表 耻 . 1) 


4=4 4=2 4=1 当前 帧 
图 E.7 运动 估计 的 多 个 参考 帧 [H3] (2003 IEEE) 

2. 主 档次 的 JM 性 能 

视频 序列 : akiyo_qcif y4m 
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编码 帧 数 : 100 

帧 组 ， IBPBPBPBPB 

量化 参数 . 10, 28, 40, 51 
参考 帧 数 : 3 (JLK E. 2) 
3. 高 档次 中 的 JM 性 能 
视频 序列 :; sintel_720p. y4m 
编码 帧 数 : 100 

帧 组 ， IBPBPBPBPB 

量化 参数 : 10, 28, 40, 51 


参考 帧 数 : 3 (ILK E. 3) 
SSIM、PSNR 、 编 码 时 间 、 比 特 率 、 压 缩 比 关于 QP (量化 参数 ) 的 曲线 图 如 
图 E. 8 ~ E. 12 所 示 。 


表 E.1 基本 档次 的 JM 性 能 












































量化 参数 SSIM PSNR/dB 编码 时 间 /s 。 ”比特 率 / (kbit/s) 压 缩 比 
10 0. 9969 51. 086 525. 499 1237. 16 7. 367063 
28 0.971 38. 234 248. 934 229. 5 39.5 
40 0. 861 29. 906 183. 088 71. 38 123. 7667 
51 0. 5814 22. 532 145. 103 25. 35 337. 5455 
RE2 主 档次 的 JM 性 能 
量化 参数 SSIM PSNR/dB 编码 时 间 /s ”比特 率 / (kbit/s) FR 缩 比 
10 0. 9975 51. 832 38. 428 1292. 51 7. 058935 
28 0. 9722 38. 431 35.715 204. 14 44. 20238 
40 0. 8609 29. 836 34. 030 66. 05 137. 5185 
51 0. 3909 12. 79 33. 082 12. 76 618. 8333 
RE3 高 档次 的 JM 性 能 
量化 参数 SSIM PSNR/dB 编码 时 间 /s ”比特 率 /(kbit/s ) 压 缩 比 
10 0. 9989 63. 115 1438. 401 14044. 44 23. 85827 
28 0. 9796 47. 424 1394. 849 2001. 91 167. 3006 
40 0. 8692 37. 834 1307. 674 476. 25 702. 8351 
51 0. 5354 10. 716 1059. 323 109. 25 3030 
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图 E.9 


编码 时 间 /s 
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基本 档次 、 主 档次 和 高 档次 的 SSIM 与 QP 的 关系 曲线 
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图 E.11 基本 档次 、 主 档次 和 高 档次 的 比特 率 与 QP 的 关系 曲线 
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图 E.12 ”基本 档次 、 主 档次 和 高 档次 的 压缩 比 与 量化 参数 的 关系 曲线 


E.6 x264 性 能 分 析 


1. 基本 档次 中 x264 的 性 能 (LE. 4) 
视频 序列 : akiyo_qcif y4m 

编码 帧 数 : 100 

帧 组， IBPBPBPBPB 

量化 参数 : 10, 28, 40, 51 

参考 帧 数 : 3 

2. 主 档次 中 x264 的 性 能 ( 见 表 下 .5 ) 
视频 序列 : akiyo_qcif y4m 

编码 帧 数 : 100 

帧 组 ， IBPBPBPBPB 





量化 参数 . 10, 28, 40, 51 
参考 帧 数 : 3 
3. 高 档次 中 x264 性 能 ( 见 表 E. 6) 
视频 序列 ，sintel_720p. y4m 

编码 帧 数 : 100 


wiZH . IBPBPBPBPB 


量化 参数 : 10, 28, 40, 51 
参考 帧 数 : 3 


表 E.4 基本 档次 中 x264 的 性 能 















































量化 参数 SSIM PSNR/dB 编码 时 间 /s 。 ”比特 率 /( kbit/s) 压 缩 比 
10 0. 997426 51. 895 0. 813 426. 28 21. 33908 
28 0. 977708 39. 174 0. 396 36. 16 247. 5333 
40 0. 9046 31.617 0. 392 9. 78 928. 25 
51 0. 737023 25.914 0.271 5.35 1237. 667 

RES 主要 档次 中 x264 的 性 能 

量化 参数 SSIM PSNR/dB 编码 时 间 /s 比特 率 /(kbivs) 压缩 比 
10 0. 997371 51. 587 0. 7949 288. 15 31. 4661 
28 0. 977456 39. 302 0. 5029 30. 29 285. 6154 
40 0. 904055 31. 814 0. 4889 11. 28 742. 6 
51 0. 724986 25. 959 0. 327 6.4 1237. 667 

RE6 高 档次 中 x264 的 性 能 

量化 参数 SSIM PSNR/dB 编码 时 间 /s 。 ”比特 率 / (kbit/s) 压 缩 比 
10 0. 998286 63. 175 17. 85714286 5465. 59 61. 30845 
28 0. 99331 55. 436 7. 849293564 510. 28 655. 5288 
40 0. 982018 42. 128 4. 830917874 144. 31 2311. 017 
51 0. 959803 35. 188 4.636068614 50. 81 6492. 857 


SSIM、PSNR 、 编 码 时 间 、 比 特 率 、 压 缩 比 与 量化 参数 (QP) 的 关系 曲线 如 


图 E.13 ~ K| E. 17 所 示 。 
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图 E.13 基本 档次 、 主 档次 和 高 档次 SSIM 与 QP 的 关系 曲线 
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图 E.14 基本 档次 、 主 档次 和 高 档次 PSNR 与 QP 的 关系 曲线 


100 





a 10 
3 
pa 
T 
R 
1 
30 40 50 60 
0.1 
QP 





图 E.15 基本 档次 、 主 档次 和 高 档次 编码 时 间 与 QP 的 关系 曲线 
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图 E.16 基本 档次 、 主 档次 和 高 档次 比特 率 与 QP 的 关系 曲线 
10000 


1000 





0 10 20 30 40 50 60 





图 E.17 基本 档次 、 主 档次 和 高 档次 压缩 比 与 QP 的 关系 曲线 


E.7 Intel IPP 性 能 分 析 


1. 基本 档次 中 Intel IPP 的 性 能 (JLK 下 .7) 
视频 序列 : akiyo_qcif y4m 

编码 帧 数 : 100 

帧 组 ， IBPBPBPBPB 

比特 率 (kbit/s): 1000, 100, 50, 10 
参考 帧 数 : 3 

2. 主 档次 中 Intel IPP 的 性 能 (ILK 下. 8) 
视频 序列 : akiyo_qcif y4m 

编码 帧 数 : 100 
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帧 组 ， IBPBPBPBPB 

比特 率 (kbit/s): 1000, 100, 50, 10 

参考 帧 数 : 3 

3. 高 档次 中 Intel IPP 的 性 能 ( 见 表 E. 9) 

视频 序列 ，sintel_720p. y4m 

编码 帧 数 : 100 

帧 组 . IBPBPBPBPB 

比特 率 (kbit/s): 1000, 100, 50, 10 

参考 帧 数 : 3 

SSIM，PSNR ， 编 码 时 间 ， 压 缩 比 关于 比特 率 的 关系 曲线 如 图 上 .18 ~ Al E. 21 
所 示 。 

RET 基本 档次 中 IntelIPP 的 性 能 















































比特 率 ( kbit/s) SSIM PSNR/dB 总 的 编码 时 间 /s 压缩 比 
1000 0. 9963 49. 8634 0. 66 8. 47 
100 0. 979 41. 2845 0. 45 68. 57 
50 0. 9392 35. 8397 0. 38 137. 44 
10 0. 6553 24. 6113 0. 35 154. 37 
RES 主 档次 中 IntelIPP 的 性 能 
比特 率 ( kbit/s) SSIM PSNR/dB 总 的 编码 时 间 /s 压缩 比 
1000 0. 9962 49. 1608 0. 69 9.4 
100 0. 983 41. 1057 0. 44 77. 68 
50 0. 9492 35. 3562 0.4 138. 97 
10 0. 655 24. 6113 0. 39 159. 6 
REO 高 档次 中 的 IntelIPP 性 能 
比特 率 ( kbit/s) SSIM PSNR/dB 总 的 编码 时 间 /s 压缩 比 
1000 0. 998286 61. 755 11.71 366. 75 
100 0. 98331 55. 8701 4.76 3317. 02 
50 0. 942018 42. 128 4.2 5153. 59 
10 0. 899803 35. 188 4.17 5856. 63 
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图 E.18 基本 档次 、 主 档次 和 高 档次 中 SSIM 与 比特 率 的 关系 曲线 
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图 E.19 基本 档次 、 主 档次 和 高 档次 中 PSNR 与 比特 率 的 关系 曲线 
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图 E.20 基本 档次 、 主 档次 和 高 档次 中 编码 时 间 与 比特 率 的 关系 曲线 
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基本 档次 、 主 档次 和 高 档次 中 压缩 比 与 比特 率 的 关系 曲线 





图 E. 21 


E.8 在 基本 档次 、 主 档次 和 高 档次 中 JM, x264 和 Intel IPP 


软件 的 SSIM 比较 


基本 档次 中 JM, x264 和 Intel IPP 软件 的 SSIM 比较 (akiyo_qcif. y4m) 如 表 


E. 10 和 图 E. 22 所 示 。 


RE10 基本 档次 中 JM、x264 和 Intel IPP 软件 的 SSIM 比较 (akiyo_qcif. y4m) 








JM x264 IntelIPP 
比特 率 /( kbit/s) SSIM 比特 率 /( kbit/s) SSIM 比特 率 /( kbit/s) SSIM 
1237. 16 0. 9969 642. 01 0. 997426 1000 0. 9963 
229.5 0. 971 99. 08 0. 977708 100 0. 979 
71. 38 0. 861 34. 3 0. 9046 50 0. 9392 
25. 35 0. 5814 15. 55 0. 737023 10 0. 6553 
1.2 
l S 
0.8 i 
= 06 y 
A 
0.4 
0.2 


=-$—JM -X2604 一 全 -Intel IPP 


0 200 400 600 800 1000 1200 1400 
比特 率 /(kbit/s) 


图 .22 基本 档次 中 JM、x264 和 Intel IPP 软件 实现 的 SSM 与 比特 率 的 关系 曲线 (akiyo_qcif. y4m) 
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主 档 次 中 JM、x264 和 Intel IPP 软件 的 SSIM 比较 (akiyo_qcif. y4m) 如 表 EE.11 
和 图 E. 23 所 示 。 


表 E.11 主 档次 中 JM、x264 和 Intel IPP 软件 实现 的 SSIM (akiyo_qcif. y4m) 








JM x264 IntelIPP 
比特 率 /( kbit/s) SSIM 比特 率 / (kbit/s ) SSIM 比特 率 / ( kbit/s) SSIM 
1292. 51 0. 9975 558. 28 0. 997588 1000 0. 9962 
204. 14 0. 9722 93.3 0. 979848 100 0. 983 
66. 05 0. 8609 33. 38 0. 909762 50 0. 9492 
12. 76 0. 3909 14. 97 0. 731834 10 0. 655 
1.2 


= E 
E 06 7 
| 
0.4 
0.2 
一 9 一 JM BR x264 一 全 -intel IPP 
0 


0 200 400 600 800 1000 1200 1400 
比特 率 /kbits) 


图 E.23 EKF JM, x264 和 Intel IPP 实现 的 SSM 与 比特 率 的 关系 曲线 (akiyo_qcif y4m) 


高 档次 中 JM, x264 和 Intel IPP 软件 的 SSIM 比较 (sintel_780p. y4m) 如 表 
E. 12 和 图 E. 24 所 示 。 


REI2 高 档次 中 JM、x264 和 Intel IPP 软件 SSIM 的 比较 (sintel_780p. y4m) 








JM x264 IntelIPP 

比特 率 /( kbit/s) SSIM 比特 率 / (kbit/s ) SSIM 比特 率 / ( kbit/s) SSIM 
14044. 44 0. 9989 5465. 59 0. 998286 1000 0. 998286 
2001. 91 0. 9796 510. 28 0. 99331 100 0. 98331 
476. 25 0. 8692 144. 31 0. 982018 50 0. 942018 


109. 25 0. 5354 50. 81 0. 959803 10 0. 899803 
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图 E.24 高 档次 中 JM、x264 和 Intel IPP 实现 的 SSM 与 比特 率 的 关系 曲线 (sintel_780p. y4m) 


E. 9 基本 档次 、 主 档次 和 高 档次 中 JM, x264 和 Intel IPP 软 
件 实现 的 PSNR 对 比 
基本 档次 中 JM, x264 和 Intel IPP 软件 实现 的 PSNR 对 比 (akiyo_qcif. y4m) 如 
K E. 13 和 图 E. 25 所 示 。 


表 E.13 基本 档次 中 JM, x264 和 Intel IPP 实现 的 PSNR 对 比 ( akiyo_qcif. y4m) 








JM x264 IntelIPP 
比特 率 /( kbit/s) PSNR/dB 比特 率 /( kbit/s) PSNR/dB 比特 率 / (kbit/s) PSNR/dB 
1237. 16 51. 086 642. 01 52. 216 1000 49. 8634 
229. 5 38. 234 99. 08 40. 082 100 41. 2845 
71. 38 29. 906 34.3 32. 173 50 35. 8397 
25.35 22. 532 15. 55 26. 25 10 24. 6113 
60 
, Bd -A 
四 40 Fai 
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图 E.25 基本 档次 中 JM, x264 和 Intel IPP 实现 的 PSNR 与 比特 率 的 关系 曲线 (akiyo_qcif. y4m) 
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主 档次 中 JM、x264 和 Intel IPP 软件 实现 的 PSNR 对 比 ( akiyo_qcif. y4m) 如 表 
E. 14 和 图 E. 26 所 示 。 


REI 主 档 次 中 JM、x264 和 Intel IPP 软件 实现 的 PSNR 对 比 ( akiyo_qcif. y4m) 








JM x264 IntelIPP 
比特 率 /( kbit/s) PSNR/dB 比特 率 /(kbit/s)  PSNR/dB 比特 率 / (kbit/s)  PSNR/dB 
1292. 51 51. 832 558. 28 52. 162 1000 49. 1608 
204. 14 38. 431 93.3 40. 115 100 41. 1057 
66. 05 29. 836 33. 38 32. 222 50 35. 3562 
12. 76 12. 79 14. 97 26. 171 10 24. 6113 
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图 E.26 主 档 次 中 JM、x264 和 Intel IPP 实现 的 PSNR 与 比特 率 的 关系 曲线 (akiyo_qcif. y4m) 


高 档次 中 JM, x264 和 Intel IPP 软件 实现 的 PSNR 对 比 (sintel_780p. y4m) 如 
K E. 15 和 图 E. 27 所 示 。 


REIS 高 档次 中 IM, x264 和 Intel IPP 软件 实现 的 PSNR 对 比 (sintel_780p. y4m) 








JM x264 IntelIPP 

比特 率 /( kbit/s) PSNR/dB 比特 率 /(kbit/s)  PSNR/dB 比特 率 / (kbit/s)  PSNR/dB 
14044. 44 63. 115 5465. 59 63. 175 1000 61. 755 
2001. 91 47. 424 510. 28 55. 436 100 55. 8701 
476. 25 37. 834 144. 31 42. 128 50 42. 128 


109. 25 10. 716 50. 81 35. 188 10 35. 188 
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图 E.27 高 档次 中 JM., x264 和 Intel IPP 实现 的 PSNR 与 比特 率 的 
关系 曲线 (sintel_780p. y4m) 


E. 10 基本 档次 、 主 档次 和 高 档次 中 JM, x264 和 Intel IPP 
软件 所 用 编码 时 间 的 对 比 


基本 档次 中 JM、x264 和 Intel IPP 软件 所 用 编码 时 间 的 对 比 (akiyo_qcif. y4 m) 
如 表 E. 16 和 图 E. 28 所 示 。 


表 E.16 基本 档次 中 JM、x264 和 Intel IPP 软件 所 用 的 编码 时 间 比 较 (akiyo_qcif. y4m) 












































JM x264 IntelIPP 
比特 率 / (kbit/s) ”编码 时 间 /s 比特 率 /( kbit/s) ”编码 时 间 /s 比特 率 /( kbit/s) ”编码 时 间 /s 
1237. 16 525. 499 642. 01 0. 564016 1000 0. 66 
229.5 248. 934 99. 08 0. 325998 100 0. 45 
71. 38 183. 088 34.3 0. 197707 50 0. 38 
25.35 145. 103 15. 55 0. 163999 10 0. 35 


主 档 次 中 JM、x264 和 Intel IPP 软件 实现 的 编码 时 间 比 较 (akiyo_qcif. y4m) 如 
表 E.17 和 图 E. 29 所 示 。 


表 E.17 主 档 次 中 JM, x264 和 Intel IPP 编码 时 间 的 对 比 (akiyo_qcif. y4m) 












































JM x264 IntelIPP 
比特 率 /(kbit/s) ”编码 时 间 /s 比特 率 /( kbit/s) ”编码 时 间 /s 比特 率 /( kbit/s) ”编码 时 间 /s 
1292. 51 38. 428 558. 28 0. 843028 1000 0. 69 
204. 14 35. 715 93.3 0. 396999 100 0. 44 
66. 05 34. 03 33. 38 0. 325998 50 0.4 


12. 76 33. 082 14. 97 0. 281001 10 0. 39 
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图 E.28 ”基本 档次 中 JM、x264 和 Intel IPP 实现 的 编码 时 间 与 
比特 率 的 关系 曲线 (akiyo_qcif. y4m) 
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图 E.29 EP JM、x264 和 Intel IPP 实现 的 编码 时 间 与 比特 率 
的 关系 曲线 (akiyo_qcif. y4m) 
高 档次 中 JM, x264 和 Intel IPP 软件 实现 的 编码 时 间 比 较 ( sintel_780p. y4m ) 
如 表 E. 18 和 图 E. 30 所 示 。 
REIS 高 档次 中 JM, x264 和 Intel IPP 软件 的 编码 时 间 对 比 (sintel_780p. y4m) 












































JM x264 IntelIPP 
比特 率 / (kbit/s) ”编码 时 间 /s 比特 率 /( kbit/s) ”编码 时 间 /s 比特 率 /( kbit/s) ”编码 时 间 /s 
14044. 44 1438. 401 5465. 59 17. 85714 1000 11.71 
2001. 91 1394. 849 510. 28 7. 849294 100 4.76 
476. 25 1307. 674 144. 31 4. 830918 50 4.2 


109. 25 1059. 323 50. 81 4. 636069 10 4.17 
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图 E.30 高 档次 中 JM, x264 和 Intel IPP 实现 的 编码 时 间 与 
比特 率 的 关系 曲线 (sintel_780p. y4m) 





E. 11 基本 档次 、 主 档次 和 高 档次 中 JM, x264 和 Intel IPP 
软件 实现 的 压缩 比 对 比 


基本 档次 中 JM, x264 和 Intel IPP 软件 实现 的 压缩 比 对 比 (akiyo_qcif. y4m) 如 
K E. 19 和 图 E. 31 所 示 。 
表 E.19 基本 档次 中 JM、x264 和 Intel IPP 压缩 比 的 对 比 (akiyo_qcif. y4m) 








JM x264 Intel IPP 
比特 率 /( kbit/s) 压缩 比 比特 率 /( kbit/s) 压缩 比 比特 率 /( kbit/s) 压缩 比 
1237. 16 7. 367063 642. 01 14. 17176 1000 8. 47 
229. 5 39.5 99. 08 90. 56098 100 68. 57 
71. 38 123. 7667 34.3 265. 2143 50 137. 44 
25.35 337. 5455 15. 55 530. 4286 10 154. 37 
1000 
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图 E.31 基本 档次 中 JM、x264 和 Intel IPP 的 压缩 比 与 
比特 率 的 关系 曲线 (akiyo_qcif. y4m) 
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主 档次 中 JM、x264 和 Intel IPP 软件 实现 的 压缩 比 对 比 (akiyo_qcif. y4m) 如 
K E. 20 和 图 E. 32 所 示 。 
表 E.20 主 档次 中 JM, x264 和 Intel IPP 软件 压缩 比 对 比 ( akiyo_qcif. y4m) 













JM x264 Intel IPP 
比特 率 /( kbit/s) 压缩 比 比特 率 /( kbit/s) 压缩 比 比特 率 / (kbit/s) 压缩 比 
1292. 51 7. 058935 558. 28 16. 28509 1000 9.4 
204. 14 44. 20238 93.3 97. 71053 100 77. 68 
66. 05 137. 5185 33. 38 265. 2143 50 138. 97 
12. 76 618. 8333 14. 97 530. 4286 10 159. 6 
1000 
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图 E.32” 主 档次 中 JM、x264 和 Intel IPP 实现 的 压缩 比 与 
比特 率 关 系 曲 线 (akiyo_qcif. y4m) 


高 档次 中 JM, x264 和 Intel IPP 软件 的 压缩 比 对 比 (sintel_780p. y4m) 如 表 下 .21 


和 图 E. 33 所 示 。 
表 E.21 高 档次 中 JM、x264 和 Intel IPP 软件 实现 的 压缩 比 对 比 (sintel_780p. y4m) 








JM x264 IntelIPP 
比特 率 /( kbit/s) 压缩 比 比特 率 /( kbit/s) 压缩 比 比特 率 /( kbit/s) 压缩 比 
14044. 44 23. 85827 5465. 59 61. 30845 1000 366. 75 
2001. 91 167. 3006 510. 28 655. 5288 100 3317. 02 
476. 25 702. 8351 144. 31 2311. 017 50 5153. 59 


109. 25 3030 50. 81 6492. 857 10 5856. 63 
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图 E. 33 ”高 档次 中 JM, x264 和 Intel IPP 实现 的 


压缩 比 与 比特 率 关系 曲线 (sintel_780p. y4m) 
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E.12 结论 
mM K 基本 档次 
SSIM x264 和 Intel IPP 都 提供 
好 于 JM 的 结 
PSNR x264 和 Intel IPP 都 胜 过 
JM, x264 略 优 于 Intel IPP 
编码 时 间 x264 和 Intel IPP 都 胜 过 
JM. x264 略 优 于 Intel IPP 
压缩 比 x264 和 Intel IPP 都 胜 过 


JM, x264 略 优 于 Intel IPP 


E. 13 ”未 来 的 工作 


。 针对 不 同 的 视频 序列 进行 分 析 ; 


© 针对 不 同 的 视频 格式 即 4: 2: 2, 4: 4: 4 进行 分 析 ; 





x264 和 Intel IPP 都 提供 
好 于 IM 的 结 


x264 和 Intel IPP 都 胜 过 
JM, x264 略 优 于 Intel IPP 


x264 和 Intel IPP 都 胜 过 
JM, x264 略 优 于 Intel IPP 


x264 和 Intel IPP 都 胜 过 
JM, x264 略 优 于 Intel IPP 


x264 和 Intel IPP 都 提供 好 
于 JM 的 结 


x264 和 Intel IPP 都 胜 过 
JM. Intel IPP 略 优 于 x264 


x264 和 Intel IPP 都 胜 
过 JM 


x264 和 Intel IPP 都 胜 过 
JM. Intel IPP 略 优 于 x264 


© 针对 不 同 的 视频 分 辨 率 即 352 x288 、480p 1080p 进行 分 析 。 


附录 F 基于 H.264“ 只 编码 工 帆 ”的 AIC 实现 
以 及 与 其 他 静止 帧 图 像 编 码 标 准 如 JPEG, 
JPEG 2000, JPEG-LS 和 JPEG- XR 的 比较 
本 附录 基于 Radhika Veerla 的 专题 。 


欲 知 详情 ， 请 参见 UTA 的 EE5359 课程 网 址 http: //www-ee. uta. edu/Dip/ 
Courses/EE5359/index. html 上 的 专题 (2008 年 夏季 ) 
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FEF “FO 1 tot” Fl FA GB Visual Studio， 我 们 实现 了 高 级 网 像 编 码 
(AIC, Advance Image Coding) ， 并 且 与 其 他 图 像 压缩 技术 (U JPEG, JPEG2000 , 
JPEG-LS、JPEG-XR) 和 H. 264 对 比 了 结果 。 在 各 种 测试 图 像 上 进行 了 编码 仿 
真 。 实 验 结果 用 比特 率 、 质 量 - PSNR 来 描述 。 本 专题 只 考虑 H. 264/AVC 帧 内 编 
人 码 的 主 档次 和 高 (FRExt) 档次 ，JPEG 使 用 基本 方法 并 让 所 有 的 编译 码 需 都 进 
行 有 损 压 缩 。 

AIC 的 目的 是 [ACL] 以 降低 的 复杂 度 提供 更 好 的 质量 ， 同 时 优化 可 读 性 和 
简明 性 。 尽 管 其 目的 不 在 于 优化 速度 ， 但 它 比 许多 JPEG2000 编译 码 器 [J8] 运 
行 更 快 。 因 为 它 的 高 质量 图 像 ，AIC 的 应 用 包括 了 医学 成 像 。H. 264 RR EL 
相当 低 的 比特 、 适 当 的 复杂 度 提 供 好 的 视频 质量 ， 同 时 为 范围 广阔 的 应 用 提供 灵 
活性 [H3]。 由 于 使 用 了 8 x8 整数 变换 、 它 的 编码 效率 在 保 真 度 范 围 扩展 
(FRExt, Fidelity Range Extension) 中 得 以 进一步 提高 ， 而 且 对 更 复杂 的 视觉 内 容 
也 能 很 好 地 工作 。JPEG [JP1] 是 第 一 个 静止 图 像 压 缩 标准 ， 它 使 用 基于 8 x8 块 
HJ DCT 分解， 而 JPEG2000 是 一 个 基于 小 波 的 压缩 标准 ， 它 提高 了 JPEG 的 编码 
性 能 ， 同 时 具有 附加 的 特征 如 可 扩展 性 和 无 损 编码 能 力 ， 而 且 对 于 平滑 的 空间 数 
据 具 有 最 好 的 性 能 。JPEG 在 低 复杂 度 应 用 中 性 能 良好 ， 而 JPEG2000 在 高 复杂 
度 较 低 比特 率 应 用 中 表现 很 好 。JPEG2000 具有 超过 JPEG 率 失 真性 能 的 优势 。 
微软 的 HD photo [JX4] 是 一 个 面向 单 色调 摄影 图 像 新 的 静止 图 像 压 缩 算法 ， 它 
保持 着 最 高 的 图 像 质 量 或 者 最 优 的 性 能 。JPEG- XR [JX3] (扩展 范围 ) ， 是 HD- 
photo 的 标准 ， 它 高 动态 范围 图 像 编码 和 性 能 成 为 吸引 人 的 特征 。 它 的 性 能 接近 
于 JPEG2000 ， 而 计算 和 存储 需求 接近 JPEG, HD photo 给 出 的 有 损 压 缩 图 像 ， 文 
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件 大 小 是 JPEG 的 一 半 但 视觉 质量 好 于 JPEG， 而 且 无 损 压 缩 图 像 比 原始 图 像 小 
2. 5 ffo JPEG-LS [JLA] (无 损 的 ) 是 一 个 面向 静止 图 像 无 损 编码 的 ISOZITU-T 
标准 。 此 外 ， 它 也 提供 对 于 “ 近 无 损 ” 奈 缩 的 支持 。JPEG-LS 的 主要 目的 是 给 
出 一 个 低 复 杂 度 解决 方案 ， 以 最 大 可 能 的 压缩 效率 用 于 无 损 图 像 编 码 。JPEG 使 
HÆRS, H. 264/AVC 和 AIC 系统 采用 CABAC 编码 技术 ，HD photo 使 用 可 
逆 的 整数 -整数 -映射 重 莅 双 正 交 变 换 [J22], LOCO-I (Low Complexity Lossless 
Compression for Images, 图 像 的 低 复杂 度 无 损 压 缩 ) ， 是 一 种 JPEG- LS 的 算法 ， 它 
运用 自 适 应 预测 、 上 下 文 建 模 和 哥伦布 编码 。 它 允许 有 一 个 固定 的 最 大 样 值 误 
差 ， 从 而 支持 近 无 损 压 缩 。 

尽管 以 上 提 到 的 压缩 技术 是 面向 不 同 信号 开发 的 ， 但 它们 针对 静止 图 像 压缩 的 
压缩 工作 良好 ， 因 而 具有 比较 价值 。 不 同 的 软件 如 AIC 参考 软件 、H. 264 的 JM 软 
件 [H30] 、JPEG 的 参考 软件 [JP10] 、HD- photo 参考 软件 [JX4] JPEG2000 的 
JasPer [J1], JPEG-LS 参考 软件 ， 用 于 不 同 编译 码 器 之 间 的 比较 。 我 们 使 用 比特 
率 、 不 同 的 质量 评价 指标 如 PSNR、SSIM 和 复杂 度 进 行 评 价 。 

下 面 的 这 些 主题 将 在 本 附录 中 讨论 。 因 为 要 实现 AIC 故 对 它 进行 了 详细 描述 ， 
进行 比较 的 其 他 编译 码 器 则 简要 说 明 。 本 附录 讨论 了 用 在 软件 中 的 不 同 设置 和 评价 
方法 学 。 通 过 评价 不 同 的 测试 图 像 获 得 结果 ， 还 包含 了 使 用 AIC 参考 软件 不 同 大 
小 的 测试 图 像 。 


F.2 高 级 图 像 编 码 


高 级 图 像 编 码 (AIC) 是 一 个 静止 图 像 压缩 系统 ， 它 综合 了 H. 264 和 JPEG 标 
准 算法 ， 如 图 F.1 所 示 ， 为 了 以 较 低 的 复杂 度 实现 最 好 的 压缩 能 力 (以 质量 因数 
表述 )。 通 过 解决 瑕 辛 问题 和 提高 图 像 质量 AIC 可 以 开发 。AIC 的 性 能 接近 
JPEG2000， 且 不 JPEG 好 很 多 。AIC 运用 帧 内 块 预测 ， 它 最 初 用 在 H. 264 中 来 降低 
编码 原始 输入 的 比特 数 。AIC 和 H. 264 都 用 到 CABAC 编码 ， 而 AIC 用 系数 矩阵 的 
位 置 作为 上 下 文 [ AC1 ]。 

可 以 观察 到 ，AIC 的 每 个 块 都 被 修改 以 得 到 可 能 的 最 好 压缩 效率 。 

1. 概述 

从 RGB 到 YCbCr 的 颜色 转换 如 图 F.2 所 示 ， 该 转换 使 各 通道 更 好 的 压缩 成 为 
可 能 ， 因 为 色 度 通道 只 有 较 少 的 信息 内 容 。 然 后 每 个 通道 分 成 8 x8 的 块 用 于 预测 。 
预测 基于 图 F. 4 中 所 示 的 9 种 模式 ， 这 些 模式 基于 以 前 编码 和 解码 的 块 。 色 度 通道 
使 用 相同 的 预测 模式 作为 亮度 中 的 对 应 块 。 将 DCT 应 用 于 残 差 块 时 进一步 降低 了 
WEL, CABAC 用 于 编码 比特 率 ， 它 运用 了 一 个 上 下 文 ， 其 中 常用 的 预测 模式 和 
DCT 系数 比 很 少 使 用 的 预测 模式 和 系数 耗 用 较 少 的 比特 数 [AC1]。 可 以 观察 到 ， 
AIC 的 每 一 块 都 被 修改 以 获得 可 能 的 最 好 的 压缩 效率 。 
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图 F.1 AIC 编码 器 和 解码 器 的 过 程 流 | ACI | 





2. 颜色 转换 
从 RGB 到 YCbCr 的 颜色 转换 如 图 F. 2 所 示 ， 该 转换 使 各 通道 更 好 的 压缩 成 为 


可 能 ， 因 为 色 度 通道 具有 较 少 的 信息 内 容 。 
Y 0.257 0.504 0.098 JFR] T16 
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A. 


KI F.2 RGB FU YCbCr 的 颜色 转换 矩阵 (针对 8 bit/ RAY TAL) 
AIC 没有 使 用 亚 采 样 就 实现 了 较 高 的 质量 /压缩 比 ， 而 H. 264 和 JPEG 采样 了 
亚 采 样 。 通 过 使 用 块 预测 和 二 进 制 算术 编码 这 是 有 可 能 实现 的 。AIC 使 用 4: 4: 4 
格式 ， 如 图 F. 3 所 示 。 亚 采样 对 图 像 质 量 有 人 负面 影响 。 
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图 F.3 YCbCr 采样 格式 一 一 4: 4:4,，4:2:2 FU 4:2:0 [B12] 


3. 块 预测 

每 个 通道 分 为 8 x8 的 块 以 便 预测 。 每 个 8 x8 块 用 从 左 到 右 自 上 而 下 的 扫描 
行 顺 序 进行 编码 。H. 264 支持 4x4,，8 x8， 和 16 x16 的 块 预测 算法 ， 而 AIC 使 
用 4 x4 的 块 算法 ， 它 可 被 推广 到 8 x8 的 块 情况 。 通 过 使 用 以 前 编码 并 解码 的 块 
进行 预测 。H. 264 和 AIC 使 用 了 9 中 预测 模式 来 预测 当前 块 ， 如 图 Ff.4 所 示 。 给 
出 原始 块 和 预测 块 之 间 最 小 差 值 的 模式 会 被 选中 。 预 测 需 要 所 有 像素 的 信息 。 第 
一 块 不 能 由 以 前 的 块 预测 得 到 。 所 以 ， 用 直流 模式 满足 这 一 目的 。 为 了 降低 复杂 
E, YY 使 用 的 相同 的 预测 模式 被 用 于 Cb 和 Cr。 从 原始 块 中 减 去 预测 块 可 得 到 残 
差 块 。 

4.AIC 一 一 块 预 测 实现 细节 

用 于 块 预 测 的 不 同 模 式 如 图 F.4 所 示 

5. DCT 和 量化 

DCT 作用 于 每 个 8 x8 的 残 差 块 。DCT 具有 能 量 会 聚 的 特性 。 使 用 了 实际 上 没 
有 丢弃 比特 的 均匀 量化 。 质 量 水 平 设置 只 是 设置 量化 参数 。AIC 采用 浮 点 算法 以 产 
生 最 好 质量 的 图 像 。 

在 JPEG "F, DCT 系数 以 Z 型 顺序 传输 系数 如 图 F. 5a 所 示 ， 而 不 是 AIC 所 用 
的 如 图 F. Sb 所 示 的 扫描 线 顺序 。Z 型 扫描 需要 重 排 系 数 来 构成 零 游程 ， 它 可 用 游 
程 编 码 方法 进行 编码 。CABAC 不 需要 重 排 系数 。 故 游程 编码 是 不 必要 的 。 

CABAC: 

以 上 过 程 生成 的 预测 模式 和 DCT 系数 必须 存储 在 一 个 流 中 。AIC 使 用 CABAC 
算法 最 小 化 比特 流 。CABAC 利用 不 同 的 上 下 文 编码 符号 。 

算术 编码 能 够 编码 分 数 比特 数 且 性 能 超越 霍 夫 曼 编 码 ， 但 较为 复杂 和 缓慢 。 系 
数 在 矩阵 中 的 位 置 可 以 成 为 上 下 文 。 这 是 可 以 获得 的 ， 因 为 DCT 在 高 频 区 域 中 有 
高 概率 的 零 系 数 。AIC 所 用 的 不 同上 下 文 有 预测 -预测 模式 、 预 测 模式 、 系 数 图 、 
最 后 的 系数 、 大 于 1 的 系数 、 系 数 绝对 值 、 编 码 块 [AC1 ] 。 
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图 F.4 AIC 中 用 于 预测 的 不 同 预测 模式 [ACI | 
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IHU ERSA A b) 


图 F.5 a) M-AIC 编码 器 b) M- AIC fat 


F.3 改进 的 AIC 


1. 编码 器 

如 图 F. 5a 所 示 ，M- AIC 基于 JPEG 结构 ， 加 入 了 一 个 预测 右 。 该 预测 右 由 五 
个 部 分 组 成 包括 IDCT、Q-: 、 模 式 选择 与 存储 、 块 预测 和 一 个 加 法 器 。 预 测 器 的 功 
能 是 预测 当前 块 ， 它 是 用 以 前 上 方 行 和 左 侧 列 的 解码 块 进行 编码 的 。 原 始 图 像 的 
R ( 红 ) C ( 绿 ) AB (GE) 分 量 不 经 过 颜色 转换 模块 的 下 采样 转换 为 三 个 通道 
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Y (亮度 )、Cb 和 Cr ( 色 度 )。 也 就 是 说 ，YCbCr 通道 的 格式 是 4: 4: 4。AIC 使 
用 与 JPEG 参考 软件 [JP10] 相同 的 颜色 转换 方法 。 

三 个 通道 Y、Cb 和 Cr 依次 压缩 , Y 是 第 一 个 Cr 是 最 后 一 个 。 与 JPEG 相同 ， 
每 个 通道 分 成 互补 重合 的 8 x8 块 ， 然 后 从 左 到 右 自 上 而 下 按 扫描 顺序 逐 块 编码 。 
编码 每 个 Y 通道 的 块 时 ， 要 做 的 第 一 件 事 情 是 ， 通 过 在 [AC1] 预定 的 9 个 模式 
中 全 搜索 选择 块 预测 模式 ， 它 使 绝对 误差 和 (SAD ，Sum of Absolute Difference) FE 
量 的 预测 误差 最 小 化 。9 种 块 预测 模式 编号 为 0 ~8， 叫 作 模 式 0 ~ 模式 8， 分 别 表 
WEH., KE, Em, ATHA., ATAA, EWA, KFT, ÆA mMk 
PHE, Beth WRAT BOR MAAF Y 的 当前 块 ， 还 用 于 预测 Cb 
和 Cr 的 对 应 块 ， 这 些 对 应 块 与 Y 中 的 当前 块 具有 相同 的 块 索 引号。 编码 的 块 预测 
残 差 (Res) 利用 快速 浮 点 DCT 算法 变换 到 DCT 系数 。 然 后 ，DCT 系数 被 均匀 地 
标量 量化 。 相 同 的 量化 参数 (QP, Quantization Parameter) 用 来 量化 整 幅 图 像 所 有 
的 DCT 系数， 包括 所 有 的 通道 Y、Cb 和 Cr。64 个 DCT 量化 系数 的 二 维和 矩阵 通过 Z 
型 扫描 顺序 转化 成 一 个 一 维 序列 。 所 有 包括 直流 系数 和 交流 系数 的 64 个 系数 用 与 
JPEG 标准 编码 交流 系数 相同 的 算法 进行 编码 。 提 出 的 算法 中 所 用 的 编码 所 有 通道 
Y、Cb 和 Cr 的 霍 夫 曼 码 表 ， 与 基本 JPEG 推荐 的 色 度 交流 系数 霍 夫 曼 码 表 相 同 
[JP6，JP10]。 选 出 的 预测 模式 由 具有 变 长 码 算 法 的 ModeEnc 模块 编码 。 如 果 当 前 
块 的 预测 模式 与 前 一 块 相 同 ， 那么 只 输出 1bit 的 0， 否 则 输出 1bit 的 1 后 接 3bit 的 
模式 编号 信息 ， 该 信息 是 模式 索引 号 本 身 或 者 是 索引 号 减 1 如 果 当 前 块 的 索引 号 小 
于 或 大 于 前 一 块 索 引号 。 为 组 成 一 个 压缩 流 ， 用 11 个 字 节 来 构造 一 个 流 首部 ， 其 
中 包括 流 格 式 标志 、 算 法 版 本 、 量 化 参数 、 图 像 宽度 、 图 像 高 度 、 原 始 图 像 的 像素 
比特 数 、 以 及 压缩 模式 的 代码 长 度 。 压 缩 码 流 依次 包括 首部 、 预 测 模 式 代码 、Y 通 
道 残 差 (Y- Res) 和 霍 夫 曼 码 、Cb- Res 霍 夫 曼 码 和 Cr- Res HKG, KN as Ay 
末尾 加 入 了 目 适 应 算术 编码 髓 (AAC; adaptive arithmetic coder)。 选 自 [DC3] 的 
目 适 应 编码 大 源 代 码 可 以 从 [DC4] 中 下 载 。AAC 的 输入 8bit 的 符号 ， 这 些 和 
从 压缩 流 〈 首 部 ， 预 测 模式 代码 ，Y-Res、Cb- Res 和 Cr 残 差 的 堆 夫 曼 码 ) 中 
方 抽取 出 来 。AAC 的 输出 作为 最 终 的 压缩 结果 存储 起 来 。 

2. 解码 器 

提出 的 M- AIC 解码 器 如 图 了 5b 所 示 。 事 实 上 ， 解 但 过 程 是 编码 过 程 的 倒置 。 
SK H Bat at AY LR nt fay A BI] AAD (Adaptive Arithmetic Decoder， 目 适应 算术 解码 
an), POLE Sie, WMI Y- Res 、Cb- Res 、Cr- Res 的 堆 夫 曼 码 。 预 测 
模式 码 解码 为 预测 模式 并 有 ModeEec 模块 存储 。 通 过 类 似 于 基本 JPEG 解码 需 
[JP10] 的 解码 算法 得 到 当前 块 的 残 差 。 当 前 块 的 预测 按照 其 预测 模式 从 以 前 解码 
块 中 产生 。 重 建 残 差 加 到 预测 值 上 生成 重建 的 当前 块 。 然 后 ，Y、Cb 和 Cr 的 所 有 
块 得 以 重建 ， 三 个 通道 Y、Cb 和 Cr 由 颜色 逆转 换 模 块 转换 到 R、GC 和 B， 参 见 
KIF. 2, 
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F.4 H.264 标准 





与 MPEG-2 相 比 ，H. 264 或 MPEG-4 第 10 部 分 目的 是 在 相同 的 质量 上 以 大 
约 一 半 的 比特 率 编码 视频 序列 。 它 的 目的 还 在 于 ， 以 CABAC Wein at. REW 
稳健 性 和 网 络 的 友好 性 实现 编码 效率 的 明显 改善 。 参 数 集 概念 、 任 意 分 片 排序 、 
灵活 的 宏 块 结 构 、 宛 余 帧 、 切 换 预 测 帧 和 切换 帧 内 编码 帧 促成 了 这 个 标准 的 抗 误 
码 / 稳 健 性 。 自 适应 (方向 ) 帧 内 预测 〈 见 图 了 4) 是 促成 该 标准 高 效 编码 的 因素 
之 一 [H3], 

每 个 档次 规定 了 整个 语法 和 限制 比特 流 的 一 个 子 集 ， 所 有 遵守 这 个 档次 的 解码 
器 都 应 该 支持 这 个 集合 。 在 第 一 版 中 有 三 个 档次 : 基本 档次 、 主 档次 、 和 扩展 档 
次 。 主 档次 面向 数字 存储 媒体 和 电视 广播 而 设计 。H. 264 主 档 次 作为 高 档次 的 子 
集 ， 其 设计 的 主要 目的 是 压缩 编码 效率 。 保 真 度 范 围 扩 展 [H1] 在 压缩 效率 方面 
给 出 了 一 个 重大 突破 。 该 档次 如 图 F.6 所 示 。 
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KIF. 6 H.264 档次 中 的 特定 编码 部 分 [H3] (2003 IEEE) 





在 保 真 度 范围 扩展 中 定义 有 四 个 高 档次 : 高档 次、 高 10 档次 、 高 4: 2: 2 档 
次 和 高 4: 4: 4 档次。 高 档次 支持 面 回 高 分 辨 率 应 用 的 4: 2: 0 采样 的 8 比特 视频 。 
高 10 档次 支持 4: 2: 0 采样 ， 且 每 个 样 值 的 表示 精度 高 达 10 比特 。 高 4: 2: 2 档次 
文 持 高 达 10bit 每 样 值 。 高 4: 4: 4 档次 文 持 高 达 4: 4: 4 色 度 采样 且 每 个 样 值 
12bit 的 精度 ， 从 而 支持 高 效 的 无 损 区 域 编码 [ H3 ]。 





330 ”视频 编码 全 角度 详解 





F. 4.1 H.264/AVC 主 档次 帧 内 编码 


H. 264/ AVC 主 档次 帧 内 编码 和 JPEG2000 之 间 的 主要 差别 在 于 变换 阶段 。 这 一 
阶段 的 特性 也 决定 了 量化 和 炉 编 码 阶 段 。H. 264 使 用 基于 块 的 编码 ， 如 图 F.7 所 
示 ， 就 像 帧 间 编 码 框架 所 用 的 块 平 移 模型 一 样 [| J]22]。 采 用 了 4 x4 大 小 的 变换 块 
而 不 是 8 x8, H. 264 利用 宏 块 的 帧 内 预测 来 开发 空间 元 余 ， 预 测 利 用 同一 帧 的 相 
邻 像素 ， 这 样 就 利用 了 块 间 的 空间 预测 。 
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图 F.7 H.264/AVC 中 宏 块 的 基本 编码 结构 [H3] (2003 IEEE) 





使 用 空间 预测 以 及 2 级 小 波 变 换 的 结果 在 平滑 图 像 区 域 中 是 有 效 的 。 这 一 特 
征 使 得 H. 264 在 高 分 辨 率 高 质量 应 用 中 与 JPEG2000 可 以 相 比 拟 。JPEG 即使 运 
用 了 基于 DCT 的 块 编码 也 不 能 具有 这 样 的 可 比 性 。 如 果 利 用 上 下 文 自 适 应 的 炉 
编码 合理 地 考虑 了 相 邻 像素 间 的 相关 性 ,那么 DCT 编码 框架 与 小 波 变换 编码 具 
有 了 可比 性 。 

Æ H. 264 中 ， 实 施 变 换 之 后 ， 系 数 进行 标量 量化 、Z 型 扫描 并 由 CABAC 
Mimi, FSS CABAC 通过 在 不 同 的 VLC 码 表 之 间 进 行 切换 进行 工作 ， 这 
些 码 表 的 设计 用 到 基于 局 部 上 下 文 的 指数 哥伦布 码 ， 上 下 文 从 所 用 oe 
获得 ， 同 时 要 牺牲 一 点 编码 效率 [H3 ] 。 


F. 4.2 H.264/AVC FRExt 高 档次 帧 内 编码 


改善 FRExt 编码 效率 的 主要 特征 是 8 x 8 整数 变换 和 所 有 的 编码 方法 ， 
及 与 4x4 和 8 x8 整数 变换 间 自 适应 选择 相关 的 预测 模式 。 ye 
[H11, J22]: 
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。 较 高 的 颜色 表示 分 辩 率 如 YUV 4: 2: 2 和 YUV 4: 4: 4， 参 见 图 了 . 2; 

。 在 其 高 分 辨 率 和 高 的 比特 率 下 ，8 x8 块 的 加 法 是 一 个 关键 因素 ; 

© 实现 很 高 的 保 真 度 一 一 甚至 对 于 选择 性 的 无 损 视 频 表 示 。 

基于 内 容 的 自 适 应 二 进 制 算术 编码 (CABAC ，Context- based Adaptive Binary Arith- 
metic Coding) : 

为 了 得 到 好 的 压缩 ，CABAC 利用 了 算术 编码 。CABAC 编码 过 程 如 图 F.8 所 
示 ， 包 括 三 个 基本 步骤 。 
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图 F.8 CABAC 的 框图 [H25] (2006 IEEE) 


步 又 1: 二 值 化 一 一 在 输入 给 算术 编码 需 之 前 ， 把 非 二 进 制 符号 映射 到 二 进 制 


序列 中 。 
步骤 2: 上 下 文 建 模 一 一 它 是 一 个 概率 模型 ， 基 于 以 前 编码 的 语法 元 素 定 义 了 
一 个 或 多 个 元 系 。 





步骤 3 二进制 算术 编码 一 一 基于 所 选 的 概率 模型 对 语法 元 系 进 行 编码 。 
F.5 JPEG 


JPEG 是 第 一 个 面向 连续 色调 静止 图 像 的 ISO/ITU-T 标准 [JP1]。 它 允许 对 
静止 图 像 进 行 有 损 和 无 损 的 编码 。JPEG 以 最 低 的 复杂 度 给 出 了 有 损 压 缩 良 好 的 
压缩 结果 。JPEG 有 几 个 定义 的 模式 包括 基本 、 渐 进 和 分 级 模式 。 基 本 模式 支持 
只 支持 有 损 压 缩 ， 是 相当 流行 的 。 在 基于 DCT 块 压 缩 的 帮助 下 ， 可 以 实现 平均 
15:1 的 压缩 比 。 利 用 预测 编码 压缩 技术 可 以 实现 无 损 编 码 ， 它 包括 差分 编码 、 
游程 编码 和 霍 夫 曼 编码 。JPEG 进行 按照 HVS 加 权 的 均匀 量化 。 量 化 系数 要 进行 
Z 型 扫描 (ILEI .9a)， 因 为 它 允 许 以 从 低频 到 高 频 分 量 的 顺序 进行 焙 编 码 
[JP1 Ila 

JPEG 基本 (Ath) 算法 过 程 流 图 如 图 F. 10 所 示 。 

基本 模式 的 过 程 流 ， 编 码 过 程 开 始 于 彩色 图 像 的 压缩 转换 ， 紧 接着 是 基于 8 x 
8 块 的 DCT (对 于 灰 度 图 像 过 程 流 从 这 里 开始 ) ， 量 化 ，Z 型 扫描 ， 用 霍 夫 曼 人 码 表 
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压缩 图 像 数 据 重建 的 图 像 数 据 


图 F.10 a) JPEG 编码 器 的 框图 b) JPEG 解码 器 的 框图 [ JP1] 


进行 炉 编 码 ， 对 于 解码 过 程 ， 反 之 亦 然 。 

不 同 的 量化 矩阵 用 于 亮度 和 色调 分 量 。 每 64 个 DCT 系数 的 量化 步 长 规定 在 一 
个 量化 表 里 ， 它 对 于 所 有 的 块 都 是 相同 的 。 所 有 块 的 直流 系数 使 用 预测 方案 单独 
ats 

质量 因数 “Q” 用 量化 表 来 设置 ， 我 们 可 观察 到 在 各 种 各 样 的 范围 中 不 同 种 类 
HJE [JPL]. 
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F.6 JPEG2000 








JPEG2000 [J8] 是 一 个 图 像 压缩 标准 ， 文 持 灰 度 或 彩色 图 像 的 有 损 和 无 损 压 
缩 。 除 了 压缩 能 力 之 外 ，JPEG2000 还 支持 绅 越 的 低 比 特 率 性 能 (没有 牺牲 高 比特 
率 时 的 性 能 ) 和 感 兴趣 区 域 编码 ， 随 机 访问 规定 图 像 区 域 的 EBCOT (Embedded 
Block Coding with Optimized Truncation， 优 化 截取 航 入 式 块 编码 )、 以 及 差错 恢复 。 
它 还 支持 灵活 的 文件 格式 和 图 像 的 渐进 解码 ， 人 允许 保 真 度 和 分 辩 率 从 无 损 到 有 损 都 
会 出 现 。 它 的 结构 使 它 适 合 于 广阔 的 应 用 ， 从 便携 式 数 码 相 机 到 高 端 印 前 设备 、 医 
学 成 像 和 其 他 重要 领域 。 

JPEG2000 基于 DWT (离散 小 波 变 换 ) ， 标 量 量 化 ， 上 下 文 建 模 、 算 术 编 码 
和 后 压缩 率 分 配 。 小 波 变换 具有 超越 基于 DCT 压缩 3 分 贝 的 改善 [有 ] 。 无 损 压 
FEAR MS AYA ERA SE, Ga a TE PS EN 64 x 64 的 
大 小 。DEW 可 用 提供 无 损 编码 的 可 道 滤波 絮 来 完成 ; 或 者 用 提供 较 高 编码 效率 
但 不 可 能 无 损 的 不 可 逆 滤 波 器 来 完成 。 算 法 用 “后 压缩 率 分 配 ” 将 编码 数据 组 
织 起 来 形成 所 谓 的 层 ， 也 就 是 质量 级 别 ， 然 后 输出 到 数据 包 的 码 流 中 。JPEG 在 
统一 的 算法 中 提供 了 分 辩 率 、SNR 和 位 置 的 渐进 性 ， 或 者 它们 的 任意 组 合 、 可 
解析 的 码 流 、 差 错 恢复 、 任 意 形状 的 感 兴趣 区 域 、 随 机 访问 〈 子 带 块 级 别 ) A 
损 和 无 损 编 码 等 。 

JPEG2000 编码 过 程 如 下 [J11]: 

。 将 图 像 分 解 成 分 量 ; 

。 图 像 及 其 分 量 再 被 分 解 成 矩形 的 片 ， 片 分 量 是 原始 图 像 或 重建 图 像 的 基本 
单元 ; 

。 小 波 变换 作用 于 每 一 片 ， 把 它 分 解 成 不 同 的 级 别 ; 

。 这 些 分 解 级 别 由 系数 子 带 组 成 ， 这 些 子 带 描述 了 片 分 量 局 部 区 域 的 而 不 是 
整个 片 分 量 的 频率 特性 ; 

。 系数 子 带 被 量化 再 分 割 成 “ 码 块 ” 构 成 的 矩形 阵列 ; 

o 对 “人 码 块 ”系数 的 比特 面 进行 粹 编码 ; 

e 可 以 使 得 某 个 ROI 以 高 于 背景 的 质量 编码 ; 

。 在 比特 流 中 加 入 标识 使 得 差错 恢复 成 为 可 能 ; 

。 伍 流 的 前 端 有 一 个 主 首部 ， 它 描述 了 原始 图 像 和 各 种 分 解 以 及 编码 风格 ， 
它们 得 用 于 和 定位、 抽取、 解码 和 重建 图 像 ， 使 图 像 具 有 期 望 的 分 辨 率 、 保 真 度 、 感 
兴趣 区 域 或 其 他 特性 (OLA F. 11 和 图 F. 12) 。 

JPEG2000 在 很 多 领域 如 数字 影院 、 视 频 监 控 、 盏 事 和 医学 成 像 、 计 算 机 图 形 
学 或 动画 制作 获得 了 成 功 的 应 用 ， 这 归功 于 一 些 重要 特征 的 组 合 发 挥 ， 如 可 扩展 性 
和 同时 具有 的 高 位 深 。 



































图 F. 11 JPEG2000 编译 码 需 结构 [J5] (2000 IEEE) 
a) 编码 器 结构 b) 解码 器 结构 

















每 片上 的 DWT 
H e 





图 F. 12 分 片 ， 直 流 电 平平 移 、 压 缩 变换 、 每 个 图 像 分 量 的 DWT [J10] (2001 IEEE) 


F.7 JPEG XR 


JPEG XR [JX3] 是 一 种 编码 的 文件 格式 ， 其 设计 明确 面 辐 下 一 代数 码 相机 和 

续 色 调 摄影 内 容 的 存储 ， 主 要 基于 微软 的 技术 ， 也 叫 作 HD photo。 它 支持 很 多 颜 
o 包括 定点 和 浮 点 数值 表示 的 通道 编码 、 位 深 变化 ， 为 各 种 数据 压缩 环境 
提供 了 一 种 方法 。 其 终极 目标 是 支持 宽 范 围 的 颜色 编码 ， 保 持 与 现存 格式 的 前 向 兼 
容 形 以 及 维持 设备 实现 的 简单 化 。 它 还 提供 同样 的 无 损 算 法 和 有 损 压缩 。 

HD photo 格式 [JX4] 是 一 种 用 JPEG- XR 标准 化 的 新 文件 格式 。 就 像 JPEG- 
2000 一 样 ， 微 软 的 HD photo 的 工作 基于 很 多 除 压缩 能 力 之 外 的 高 级 特征 ， 如 有 损 / 
无 损 压缩 ， 比 特 率 可 扩展 性 ， 编 辑 ， 感 兴趣 区 域 解码 ， 不 用 除法 的 整数 实现 等 。 
HD 最 小 化 了 讨厌 的 空间 瑕 六 ,保持 了 高 频 细 节 ， 且 在 这 样 方面 性 能 优 于 其 他 有 损 
压缩 技术 。 

HD photo 是 一 个 基于 块 的 图 像 编码 器 ， 类 似 于 传统 的 图 像 编 码 范 例 : 颜色 转 
te, ABR, ARCA, tree (hk ASS, HD Photo 的 主要 模块 包括 变换 阶段 和 
系数 编码 阶段 。HD photo 1 H T — Pp ry 2E AI H A Be A RY AY BW TE 20 2 A 
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(LBT) 作为 它 的 去 相关 3 引 警 。 算 法 的 可 道 特性 既 支 持 有 损 又 支持 无 损 压 缩 。 因 而 ， 
它 简 化 了 系统 的 整体 实现 。HD photo 的 编码 器 包含 了 许多 自 适 应 元 素 : 自 适应 系 
数 扫描 ， 灵 活 的 量化 ， 块 间 系 数 预 测 ， 自 适应 VLC 人 码 表 切换 等 等 ， 如 图 F.13 所 
AR. JPEG XR 支持 若干 高 级 像素 格式 来 避免 不 同 无 符号 整数 表示 之 间 转 换 的 限制 
和 复杂 性 。 























ee 
基于 块 的 编码 器 
a) 


原始 图 像 












自 适 应 VLC 
但 表 切 换 

= 可 逆 的 整数 -整数 

‘ieee [omens [SEE] 


b) 





a 原始 图 像 





图 了 13 a) JPEG XR 编码 需 的 框图 (HD photo 编码 需 ) 
b) JPEG XR 解码 需 的 框 几 (HD photo 解码 需 ) 


这 一 特征 使 得 对 图 像 数据 数值 编码 可 以 使 用 灵活 的 方法 ， 使 得 编码 融和 解码 青 
的 实现 具有 低 的 复杂 度 。 


F.8 JPEG-LS 








JPEG-LS [JILA] 压缩 算法 是 已 制定 的 面向 彩色 和 灰 度 网 像 无 损 压 缩 标 准 之 一 。 
惠普 公司 提出 了 一 个 更 简单 的 低 复 杂 度 预测 器 [JL2]。LOCO-I (图 像 的 低 复杂 度 
无 损 压 缩 ) 是 一 个 面向 连续 色调 图 像 的 无 损 压 缩 算法 ， 它 综合 了 霍 夫 曼 编码 的 简 
单 性 和 上 下 文 模型 的 压缩 潜力 。 无 损 图 像 压 缩 方案 通常 包括 两 个 不 同 且 彼此 独立 的 
部 分 : 建 模 和 编码 。 建 模 部 分 可 以 描述 成 一 个 归纳 推理 问题 ， 按 照 某 种 预定 顺序 
(如 光栅 顺序 ) 逐 像素 观察 一 幅 岁 像 。 为 了 性 能 高 效 ， 结 合 一 个 自 适应 选择 的 哥 伦 
布 码 的 扩展 族 系 和 一 个 面 回 低 和 图 像 区 域 编 码 的 能 入 式 字 母 扩展 集 ， 去 调整 这 个 模 
型 。LOCO-I 算 法 获得 了 与 基于 算术 编码 最 先进 方案 所 得 到 的 类 似 的 压缩 比 。 

JPEG- LS 可 用 于 无 损 和 近 无 损 模 式 来 压缩 图 像 ， 这 两 种 模式 可 被 定义 为 : 

。 无 损 压缩 : 顾名思义 ， 不 会 有 信息 损失 ， 而 且 网 像 可 以 重建 得 完全 和 原始 
图 像 一 样 。 
































e 近 无 损 模 式 : 重建 图 像 分 量 的 每 个 样 值 与 原始 图 像 的 对 应 值 相差 至 多 一 个 
预定 的 (小) 量 “NEAR” 

在 JPEG-LS 压缩 中 有 三 种 模式 。 它 们 是 : 

1) 逐 平面 模式 一 一 图 像 分 量 一 个 接着 男 一 个 进行 压缩 。 只 有 灰 度 图 像 以 此 模 
式 进行 压缩 。 

2) 行 交 织 模式 一 一 在 交织 模式 中 ， 每 次 处 理 每 个 图 像 分 量 的 一 行 ， 灰 度 和 彩 
色 图 像 都 可 以 此 模式 进行 压缩 。 

3) 样 值 交 织 模式 一 一 每 次 处 理 每 个 图 像 分 量 的 一 个 样 值 。 只 有 彩色 图 像 以 此 
模式 压缩 。 

在 此 附录 中 ，JPEG-LS 代码 已 被 优化 ， 而 且 只 在 行 交 织 模 式 下 进行 测试 ， 因 为 
它 既 支持 灰 度 网 像 又 文 持 彩色 图 像 。 

JPEG- LS 方法 提供 下 列 优势 : 

。 算法 设计 的 低 复杂 度 ; 

© 实现 的 低 成 本 , 

。 在 质量 、 压 缩 效 率 和 处 理 速 度 方面 更 接近 与 无 损 压 缩 。 




















F.9 JPEG-LS 算 ; 








好 的 预测 和 有 效 的 残 差 编码 足以 对 于 大 多 数 自 然 图 像 源 实 现 具 有 竞争 力 的 压缩 
性 能 。 在 JPEG- LS 算法 中 ， 将 非 线性 算法 用 于 预测 。 上 下 文 模型 和 哥伦布 编码 青 
被 一 起 用 于 有 效 地 压缩 预测 残 差 ， 如 图 F. 14 所 示 。 




















图 了 14 JPEG-LS 框图 1JL2，JL4] (2000 IEEE) 


LOCO- I 的 描述 


LOCO-I 中 的 预测 与 建 模 单 元 基于 图 F. 15 所 描述 的 因果 模板 。 

1. 预测 

预测 方法 是 中 值 自 适 应 预测 的 一 种 变 体 ， 其 中 的 预测 值 是 a、5、c 像素 的 中 
值 。 起 始 预测 用 下 述 算法 得 到 。 
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if (c> =max (a, b)) 
x =max (a, b); 
else 
| 
if (e< =min (a, b)) 
x=min (a, b); 
else 


x=atb-c; 


四 加 加 
ref bls [= Si bee 


图 F.15 LOCO-I 的 一 种 因果 模板 [JL3] (1996 IEEE) 


然后 ， 用 那个 特定 上 下 文中 预测 误差 的 平均 值 来 细 化 起 始 预测 值 [JL2 ] 。 

2. 上下文 建 模 

上 下 文 建 模 方案 的 关键 目标 是 减少 参数 个 数 。 

1) 编码 分 布 : 连续 色调 图 像 预测 误差 的 分 布 常常 可 以 用 拉 普 拉 斯 分 布 来 近 
似 ， 即 中 心 为 0 两 侧 呈 指数 下 降 的 曲线 。 对 于 每 个 上 下 文 ， 编 码 器 基于 过 去 的 性 能 
自 适 应 地 在 一 个 霍 夫 曼 码 的 有 限 集中 选择 最 好 者 以 匹配 指数 下 降 的 分 布 。 因 为 这 些 
分 布 假定 以 0 为 中 心 ， 一 个 参数 (例如 ， 对 应 上 下 文中 误差 幅度 的 均值 ) 就 足以 
描述 每 一 分 布 的 特征 [JL2]。 

2) 确定 上 下 文 : JPEG- LS 的 上 下 文 也 反映 了 像素 值 的 局 部 变化 。LOCO-I 中 
影响 当前 预测 残 差 编码 的 上 下 文 ， 从 如 下 几 个 差 值 中 建立 起 来 g, =d -a, g, =a- 
c, g,=c-b Allg, =b-e, WAP. 15 所 示 。 上 下 文 从 以 前 编码 出 现 的 预测 误差 中 建 
立 。 因 为 需要 进一步 减少 参数 ， 每 个 差 值 eg, j=1, 2,3, 4 被 量化 到 少量 的 或 近 
似 等 概 的 区 域 中 (对 于 j=1，2，3, 4 是 相同 的 区 域 ) [JL2]。 

3. 编码 

LOCO-I 组 合 了 和 霍 夫 曼 编码 的 简单 性 〈 与 算术 编码 相 比 ) 和 上 下 文 模型 的 压缩 
潜力 [JL4]。 预 测 误差 使 用 自 适应 选择 的 基于 哥伦布 码 的 码 进行 编码 ， 对 于 几何 
分 布 的 序列 而 言 它 也 是 最 优 的 [J2]. 

1) 序 贯 参数 估计 : 在 基于 上 下 文 的 方法 中 序 贯 方案 是 强制 实施 的 ， 因 为 给 定 
上 下 文中 的 编码 像素 在 图 像 中 未 必 是 相 邻 的 ， 因 而 不 易 被 阻挡 。 

2) 取消 偏 移 ， 哥伦布 - 莱 斯 码 [B12] 很 大 程度 上 依赖 于 预测 误差 的 分 布 ， 它 
以 0 为 中 心 ， 两 侧 呈 现 对 称 的 指数 下 降 趋 势 。 尽 管 这 些 假定 在 无 记忆 模型 中 通常 是 
满足 的 ， 但 在 基于 上 下 文 的 模型 情况 下 ， 情 形 是 相当 不 同 的 ， 其 中 预测 残 差 的 规则 
的 上 下 文 相关 的 偏 移 并 非 少见 。 这 些 规则 偏 移 可 以 在 哥伦布 - 莱 斯 编码 器 的 编码 性 
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能 中 产生 明显 的 恶化 现象 。 为 了 减轻 规则 偏 移 的 影响 ，LOCO-I 使 用 了 误差 反馈 以 
把 预测 残 差 的 分 布 居中 [ JL2 ] 。 

4. RADSEY RE 

LOCO-I 通 过 把 字母 扩展 集 般 入 到 上 下 文 训 练 过 程 中 解决 了 由 于 焉 和 斜 分 布 造成 
的 符 夫 曼 码 或 哥伦布 - 莱 斯 码 的 匈 余 问 题 。 

因为 具有 多 种 模式 发 挥 作用 的 能 力 ， 它 在 可 能 包含 图 像 和 文本 的 复合 文档 中 性 
能 优异 [JL4]。 在 接近 于 更 低 数 量 级 的 复杂 度 上 ，LOCO-I 位 于 实现 最 好 压缩 比 
(由 CALIC 给 出 ) 的 方案 中 很 小 的 百分比 之 内 。 

它 可 被 用 于 压缩 卫星 、 医 学 、 文 档 、 绘 画 和 计量 生物 学 图 像 ， 或 者 是 无 损 的 或 
者 是 近 无 损 的 方式 。 在 某 些 应 用 中 ， 例 如 高 速 扫描 和 卫星 图 像 传输 中 ， 需 要 接近 实 
时 地 处 理 大 量 图 像 ， 硬 件 的 解决 方案 非常 可 贵 。 在 压缩 能 力 方 面 ，JPEG- LS 算法 与 
其 他 主流 的 无 损 压 缩 算法 可 以 相 比 拟 , 但 比 其 他 主流 算法 的 复杂 度 更 低 。JPEG-LS 
的 另 一 个 特征 是 ， 它 允许 近 无 损 压 缩 。 用 户 可 以 通过 规定 好 允许 的 容 差 能 提高 压缩 
比 和 执行 速度 。 

JPEG- LS 可 被 用 于 静止 图像 和 视频 应 用 中 。 它 可 以 无 损 或 近 无 损 的 方式 用 于 压 
缩 卫 星 、 医 学、 文档 、 绘 画 和 生物 计量 学 图 像 。 它 对 于 成 本 敏感 和 不 需要 任何 
JPEG2000 功能 的 能 入 式 应 用 中 如 新 进 比特 流 、 差 错 恢 复 、 感 兴趣 区 域 编 码 (ROT) 
等 ， 工 作 良 好 。 


F. 10 “主要 差别 









































AIC, JPEG, JPEG2000, JPEG-LS 和 JPEG-XR 编译 码 器 之 间 的 主要 差别 在 于 
变换 阶段 。JPEG2000 借助 全 局 离散 小 波 变换 (DWT) 或 更 一 般 的 小 波 包 分 解 ; 而 
H. 264 和 HD Photo 则 选择 基于 块 的 编码 框架 ， 使 用 相同 的 16 x 16 宏 块 大 小 和 很 像 
DCT 的 核心 4 x4 块 变换 。JPEG 和 AIC 使 用 离散 余弦 变换 (DCT) 去 除 图 像 的 相关 
性 。H. 264 和 HD Photo 变换 阶段 的 主要 不 同 在 于 这 两 个 编码 需 处 理 块 间 去 相关 的 
方式 。H. 264 很 大 程度 上 依赖 当前 块 从 其 相 邻 块 的 空间 预测 。 而 HD Photo 在 把 块 
输入 到 像 DCT 的 核心 4 x4 块 变 换 之 前 ， 利 用 一 种 重 县 运算 沿 着 块 边 界 对 像素 执行 
预 处 理 。JPEG 和 AIC 变换 阶段 之 间 的 主要 差别 是 去 相关 过 程 所 作用 的 基于 块 的 系 
数 。 在 JPEG 中 去 相关 过 程 作用 于 原始 图 像 的 所 有 系数 ， 而 在 AICP, ETE 
差 块 的 系数 。 等 效 地 ， 重 羞 运 算 和 核心 块 变 换 的 组 合 产 生 了 重 共 变换 。 类 似 于 
JPEG2000, HD Photo 的 整个 变换 步骤 用 二 值 有 理 数 提升 步骤 来 重建 ， 这 样 就 把 整 
数 映射 成 整数 ， 并 具有 完美 的 可 道 性 ， 形 成 一 个 统一 的 从 无 损 到 有 损 的 编码 框架 。 
相反 ，H. 264 和 AIC 从 残 差 编 码 中 实现 无 损 的 压缩 。 男 一 个 明显 的 区 别 是 ， 在 焕 编 
码 阶 段 每 个 编码 器 调 市 其 基于 上 下 文 的 自 适 应 模型 来 利用 其 变换 系数 和 /或 参数 的 
特定 行为 。H. 264/AVC 使 用 空域 的 帧 内 预测 。AfIC 遵循 同样 的 技术 。 这 避免 了 帧 
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间 编 码 宏 块 运动 补偿 带 来 的 误差 传播 。 男 一 方面 ， 所 有 以 前 的 视频 编码 标准 像 
H. 263 和 MPEG-4 视觉 都 在 变换 域 使 用 帧 内 预测 [ B9 ]。LOCO-I 的 性 能 明显 地 超 
起 了 其 他 复杂 度 相 当 的 一 次 遍历 方案 (例如 JPEG- 堆 夫 曼 ) ， 而 且 它 达到 了 类 似 于 
或 优 于 基于 算术 编码 (JPEG- 算 术 ) 更 高 复杂 度 的 方案 [JIA], 与 JPEG 和 JPEG- 
LS 相 比 ，JPEG2000 的 复杂 度 相 对 高 一 些 。 


F.11 评价 万 法 











F. 11. 1 图像 测 试 序列 


在 用 AIC 的 评价 中 ， 相 同和 不 同 分 辨 率 的 各 种 彩色 和 灰 度 图 像 用 于 全 面 地 评 
价 它 们 的 性 能 。 我 们 会 考虑 用 来 评价 不 同 纹理 和 网 案 的 测试 图 像 ， 以 便于 能 够 充分 
仔细 地 分 析 图 像 ， 以 及 使 这 些 几 像 与 不 同 软件 在 文件 格式 方面 等 具有 兼容 性 。 


F. 11.2 编译 码 器 的 设置 


在 编码 实验 中 ， 癌 公众 开放 的 软件 实现 方案 被 用 于 AIC、H. 264/AVC、JPEG- 
基本 模式 、JPEC2000 、HD photo 和 JPEG-LS。 参 考 软 件 JM18 [H30] 用 作 H. 264/ 
AVC 的 编码 器 ， 测 试 序列 的 每 一 帧 以 工 帧 模式 编码 。 对 于 JPEG， 使 用 JPEG 基本 模 
式 的 参考 软件 [JP10]。 这 个 软件 可 以 处 理 多 种 图 像 数 据 格 式 如 PCMZPPM GIF, 
Windows BMP。 对 于 JPEG2000 编码 ， 使 用 M. D. Adams 的 “JasPer”( 版 本 1. 900. 1) 
软件 [J1] 。 这 一 软件 能 够 处 理 许 多 图 像 数据 的 格式 如 PGM/PPM, windows BMP, 
但 并 非 接 受 所 有 的 BMP 文件 。 对 于 JPEC2000 的 情况 ， 用 软件 编码 每 一 帧 以 达到 压 
缩 因 数 下 的 目标 比特 率 ， 对 于 多 分 量 图 像 这 有 完善 的 定义 。HD photo 参考 软件 
[JX4] 支持 BMP, TIF 和 HDR 格式 。JPEG 和 HD photo 参考 软件 都 用 来 编码 每 一 
帧 一 达到 目标 质量 因数 ， 从 而 间接 地 控制 了 有 损 编码 的 比特 率 。JPEG- LS 参考 软件 
[JLI] 由 HP 实验 室 提 供 ， 实 现 JPEG-LS 的 有 损 压 缩 。 它 只 支持 PGM/PPM 图 像 格 
式 作为 编码 器 的 输入 ，JLS 格式 作为 编码 器 的 输出 。 

H. 264/ AVC JM18 编码 锅 [H30] 的 配置 选择 如 下 : 

© ProfileIDC =77 # 档次 识别 码 (77 = 主 档次 ，FREXT Profiles; 100 = 高 档次 ) 

© LevelIDC =40 # 级别 识别 码 (例如 20 = level 2. 0) 

e IntraProfile =1 # 为 FRExt 激活 帧 内 档次 (0: 1, 1: R) 

e Deblocking filter: off 

© QPISlice =12 # 工 分 片 的 量化 参数 (0-51) 

e YUVFormat =1 # YUV 格式 (0 =4: 0: 0, 1=4: 2: 0, 2=4: 2: 2, 3= 
A. As AY, 

JM18 软件 的 命令 行 输入 内 容 是 : 
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编码 器 . lencod-f encoder. cfg 

fi Nas: ldecod-i bitstream. 264-0 output. yuv-r reference (input) . yuv. 

JPEG 基本 模式 软件 [JP10] 的 命令 行 输入 内 容 如 下 : 

输入 图 像 可 能 是 bmp 或 ppm 格式 。 

编码 髓 : cjpeg- quality N inputfile. bmp outputfile. jpg 

其 中 的 质量 因数 “quanlity 一 N” 表 示 调 方 图 像 质量 的 缩放 量化 表 。 质 量 因数 
quality 在 0 (最 差 ) 到 100 (最 好 ) 之 间 变 化 ; 默认 值 是 75。 

fnd: djpeg- outfile be bmp- outputfileformat inputfile. jpg 

JPEG-2000 软件 [J1] 的 命令 行 输入 内 容 如 下 : 

Sahob Ar: jasper-input inputfilename. bmp- output outputfilename. jp2- outputformat 
jp2-O rate =0. 01 

或 者 jasper-f inputfilename. bmp- F outputfilename. jp2-T jp2-O rate =0.01 其 中 
rate 规定 了 正 实数 形式 的 目标 比特 率 。Rate =1 对 应 没有 压缩 。Rate 和 比特 每 像素 
(bpp) 由 以 下 表达 式 关 联 : 对 于 彩色 图 像 压 缩 比 = 24/bpp = 1/rate, X FIRE RR 
rate = bpp/8 。 

对 于 微软 的 HD Photo [JX4]， 所 有 选项 都 设置 为 黑 认 值 ， 唯 一 的 控制 来 目 质 
量 因数 设置 .: 

e KATH ; 

。 TET ST BP AR BE 

。 没有 颜色 空间 亚 采 样 ; 

。 空间 比特 流 顺 序 ; 

。 没有 跳跃 地 包含 所 有 子 带 。 

WMEncApp 命令 行 把 某 种 没有 压缩 的 文件 格式 转换 为 等 效 的 HD photo 文件 。 
例如 ,要 利用 合理 的 高 质量 有 损 压缩 从 典型 的 24bit 的 .bmp 创建 一 个 HD photo X 
件 ， 命令 行 的 内 容 是 : wmpencapp-i input. bmp- ooutput. wdp-q 10。 

在 有 损 压 缩 中 ， 增 大 质量 因数 “q” 导 致 降 低 PSNR. gq =0 是 无 损 压缩 的 
情况 。 

WMPDecApp 命令 行 把 HD photo 文件 转换 为 不 同 的 未 压缩 文件 格式 。 例 如 . 
wmpdecapp-i input. wdp-o output. bmp-c 0， 其 中 的 “c” 表 示 格 式 ， 对 于 24bit/ 像素 
的 RGB 图 像 ,，c =0; 对 于 8bit/ 像素 的 灰 度 图 像 ，c = 

为 了 对 比 图 像 ， 可 以 使 用 下 列 命 令 。 

Imagecomp ImageFileNamel ImageFileName2 | -i InputFormat| | -M 0/1 | 

其 中 M (模式 ) =0 (默认 ) 给 出 MSE 和 PSNR。 

JPEG-LS 软件 [JL1] 的 编码 器 设置 如 下 。 解 码 器 不 必要 改变 默认 值 因为 它们 
莹 循 编码 硕 的 设置 。 

。 图 像 应 该 是 ppm 或 pgm 格式 ; 
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© 在 专题 中 考虑 行 交 织 模 式 ; 

。 误差 值 在 1 到 60 之 间 变 化 。 误 差 值 为 0 对 应 没有 压缩 ; 

e Tl, T2, T3 是 阅 值 。 尽 管 给 定 了 设置 ， 下 列 条 件 仍然 需要 满足 。 误 差 值 + 
1<T1<P?2<T3, 

© 本 专题 考虑 默认 预 设 值 为 64。 


F. 11.3 主观 对 客观 图 像 质 量 测度 


无 损 和 有 损 压 缩 用 不 同 的 方法 评价 压缩 质量 。 在 无 损 情 况 下 ， 评 价 压 缩 的 标准 
有 压缩 比 、 运 行 时 间 等 ， 任 务 比 较 简 单 ; 但 在 有 损 压缩 中 ， 是 比较 复杂 的 ， 因 为 应 
该 评价 重建 图 像 引 入 的 质量 下 降 的 类 型 和 度量 [J14]. 

图 像 质 量 评价 的 目的 是 准确 度量 原始 图 像 和 重建 图 像 之 间 的 差异 。 客 观 质量 测 
度 如 PSNR， 上 度量 原始 和 重建 图 像 单个 像素 之 间 的 差别 。JPEG 编码 器 产生 较 大 的 
MSE 和 PSNR。 

SSIM [Q13] 的 设计 是 为 了 改善 传统 测度 指标 如 PSNR 和 MSE [已 被 证 明 与 人 
类 视觉 感知 系统 (HVS) 不 一 致 ] SSIM 指标 给 出 假定 ， 即 HVS 很 大 程度 上 受到 
场景 内 结构 信息 的 影响 。SSIM 指标 是 一 个 全 参考 测度 换言之， 图 像 质 量 的 度量 
结果 基于 作为 参考 的 原始 未 压缩 或 无 失真 图 像 。SSIM 度量 系统 如 网 下 16 所 示 。 

















信号 
x 











图 F. 16 结构 相似 度 (SSIM) 度量 系统 [Q13] (2004 IEEE) 


SSIM 指标 基于 三 个 不 同 测度 的 评价 ， 亮 度 、 对 比 度 和 结构 比较 测度 ， 分 别 计 
算 如 下 [Q13]: 





2u, +C 
u, +w +C, 





I(x,y) = 

















式 中 ,x 和 y 对 应 我 们 要 去 匹配 的 两 个 不 同 信号 ， 即 两 幅 不 同 图 像 中 的 两 个 不 同 
H, uw, o- 和 o DIN FE x 的 均值 、x 的 方差 和 Y 与 y 的 协 方差 ; 而 C, 、C, 和 Cie 
常数 由 C = (KL, G= (KRL), MC,=C2 给 出 ; 工 是 样 值 数据 的 动态 范 
围 ， 也 就 是 说 ， 对 于 8bit 的 像素 了 =255; K, <1 AK, <<1 是 两 个 标量 和 常数。 给 定 
如 上 测度 ,结构 相 似 度 可 以 计算 为 
SSIM(x,y) =[1(x,y) ]*Le(x,y) ]*[s(x,y) ]” 
A, a, BA y 定义 了 赋予 每 个 测度 的 不 同 的 重要 性 。 
在 另 一 方面 ，MS- SSIM 测度 是 SSIM 的 一 个 推广 形式 ， 它 在 不 同 的 尺度 上 计算 
这 些 测度 ， 然 后 用 一 个 方程 将 它们 组 合 起 来 ， 方 程 形式 为 [Q10] : 
MSSSIM(x,y) = [ly(x,9) 1 | | Te (x,y) Pls; (x,y) 1” 


NP, M 对 应 我 们 已 经 用 于 计算 的 最 大 尺度 ; j=1 对 应 图 像 的 原始 分 辩 率 。SSIM 
测度 对 于 YUV 和 RGB 颜色 空间 都 可 运行 。 

i AY EA SBI ae : 

© 块 效应 一 一 由 于 基于 块 的 DCT 编码 方案 。 

所 以 ， 我们 可 以 在 AIC 和 JPEG 中 观察 到 它 。HD-photo 已 经 降低 了 块 边 界 
HE, 

© Bho H EPE KIA o 

JPEG2000 HE KIEA RA m SZ ANA PRERE AY S o 

© 振 铃 一 一 量化 的 结 末 。 在 亮度 和 色调 分 量 中 都 恢复 出 现 。 

所 有 的 编译 码 需 都 用 到 量化 。 所 以 ， 这 是 个 重要 因素 。 

。 颜色 涂 透 一 一 由 于 色 度 亚 采样 。 

在 AIC， 颜 色 渗 透 可 被 忽略 因为 它 没有 用 到 亚 采 样 。 所 有 其 他 的 编译 码 闫 有 这 
TEIE, 


F.12 ”结论 和 未 来 的 工作 


本 专题 实现 了 如 图 上 1 所 示 的 AIC 编码 器 和 译 码 器 ， 并 用 AIC 参考 软件 对 比 
了 结果 。 据 发 现 ，M- AIC 的 结果 类 似 于 AC, Km, WAIE M CABAC 通 
过 降低 复杂 度 获得 了 一 个 相对 比较 好 的 结果 。 这 些 结果 与 其 他 压缩 技术 就 比特 率 、 
客观 测度 (质量 一 PSNR，SSIM) 进行 了 比较 ， 用 到 的 实现 这 些 技 术 的 软件 是 
H. 264 的 JM 软件 [H30], JPEG 基本 模式 参考 软件 [ JP10 ] 、JPEG2000 的 JasPer 
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[J1], HD- photo 参考 软件 [JX4] 和 JPEG-LS 参考 软件 [JL1]。 从 结果 中 观察 发 
M, AIC 与 其 他 复杂 度 相 当 高 的 编译 码 需 可 相 比 拟 。 基 于 SSM 测量 指标 ，AIC 性 
能 超越 高 达 5. Sbit/ 像 素 ， 而 且 甚 至 超出 了 这 个 bit/ 像 素 范围 仍然 保持 着 竞争 力 。 由 
于 这 样 优秀 性 能 ， 在 很 广泛 的 领域 如 摄像 机 市 场 、 互 联网 浏览 、 多 媒体 产品 诸如 移 
动 电话 和 娱乐 应 用 中 都 可 以 使 用 AIC。 不 同 的 测试 图 像 用 于 评价 各 种 图 像 纹 理 和 图 
案 ， 以 便 充 分 详细 地 研究 图 像 压缩 技术 。 

这 个 专题 还 可 被 推广 去 比较 无 损 压 缩 。CABAC 的 较 早 实现 方案 可 以 作为 未 来 
的 一 个 研究 内 容 。 

原始 的 和 输出 解码 的 网 像 

Lena (512 x512 x24) 











原始 图 像 AIC 质 量 因数 -5,2.37bit/ 像 素 ， HDphoto 质 量 因 数 -28,2.88bit/ 像 素 ， 
36.61dB,SSIM-0.914 37.74dB,SSIM-0.928 





JPEG-LS 误 差 值 -11,28bit/ 像 素 ， JPEG2000 比 特 率 =0.12， H.264 量 化 参数 -16,2.83bit/ 像 素 ， 
32.425dB,SSIM-0.818 2.95bit/ 像 素 ,37.53dB， 46.81dB,SSIM-0.917 
SSIM-0.923 





JPEG 基 本 模式 质量 因数 -94， 
2.94bit/ 像 素 ,35.6dB， 
SSIM-0.926 





SSIM 结果 : Lena (512 x512 x24) 一 一 AIC 


MSE =14.2014 
原始 图 像 [重建 图 像 ， 平均 SSIM=0.91476 ] [SSIM 图 ] 





JPEG 
MSE =17.9004 
原始 图 像 [ BERR, %3 ssinteo.soze7 | ISSMEN 





JPEG 2000 


MSE =11.484 
原始 图 像 [ TERS. qs SSIM=0 90336 | ss 四 





JPEG - XR(HD Photo) MSE=10.9338 


原始 图 像 | aeng, y SSIM=0.92815 ] [SSIM 图 ] 
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JPEG-LS 


MSE =38.1441 
原始 图 像 | 重建 图 像 ， 3y SSIM=0.81879 | [SSME] 





H.264 
MSE =15.9132 
原始 图 像 [ 重建 图 像 ， 平 均 SSIM=0.9173 | [SSIM 图 ] 





以 SSIM 作为 失真 测度 对 Lena (512 x512 x24) 的 仿真 结 


质量 与 压缩 的 关系 
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bit/ 像 素 


仿真 结果 和 原始 测试 图 像 
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AIC, JPEG, JPEG 2000, HD Photo, H. 264 和 JPEG LS 的 仿真 结果 












































M -AIC JPEG2000 HD photo H. 264 JPEG- baseline JPEG-LS 
a PSNR| “压缩 比 PSNR| “压缩 比 pee PSNR| “压缩 比 — PSNR| 压缩 比 ae PSNR| 斥 缩 比 PSNR | “压缩 比 

/dB | (CR) /dB | (CR) /dB | (CR) /dB | (CR) /dB | (CR) /dB | (CR) 
像素 ) 像素 ) 像素 ) RA) 像素 ) RA) 
0. 15253 |26. 91 | 157. 346096 | 0.17 |28.74| 141. 176471 | 0.023621 |13.04| 1016.045 | 0.06 26.24] 400 0.17139 |18. 92 | 140. 031507 | 1.0155 | 22. 17 | 23. 633678 
0. 17636 |28. 25] 136.08528 | 0.22 |29. 48] 109. 090909 | 0.033966 |20.04| 706.58894 | 0.17 | 31.3 | 141. 17647 | 0.21921 |24. 29 | 109. 484056 | 1.3393 | 24. 56 | 17. 9198089 
0.21967 |29. 15] 109. 254791 | 0.27 |30.24] 88. 8888889 | 0. 10373 [26.62] 231.3699 | 0.21 |32.31] 114. 28571 | 0.26511 |26. 64 | 90. 5284599 | 2. 2652 |30. 136 | 10. 5950909 
0.2988 |30. 16| 80. 3212851 | 0.34 |31.04| 70. 5882353 | 0.26089 |30.28| 91.992794 | 0.26 |33.27 | 92. 307692 | 0.33878 |28.49| 70. 8424346 | 2.641 |31.797| 9. 08746687 
0.3613 |30. 86| 66. 4267921 | 0.39 |31.46| 61. 5384615 | 0.73004 |33.51| 32.874911 | 0.33 |34.38| 72. 727273 | 0.39194 |29. 34] 61. 2338623 | 2. 8064 |32. 425 | 8. 55188141 
0. 46725 [31.63] 51.364366 | 0.49 | 32.1 | 48.9795918 | 2.6344 [37.38] 9. 1102338 | 0.41 |35.33| 58.536585 | 0.49451 [30.51] 48. 5328911 | 3.0009 | 33. 12 | 7. 99760072 
0. 65494 | 32.6 | 36. 6445781 | 0.67 |33.02| 35. 8208955 | 2.88 [37.74] 8.3333333 | 0.52 |36.37| 46. 153846 | 0.67093 | 31.7 | 35. 7712429 | 3. 8122 | 35. 67 | 6. 29557736 
1.0717 |34.01| 22. 3943268 | 1.09 |34. 19] 22. 0183486 | 4.2151 |39.67] 5.6938151 | 0.66 |37.48| 36.363636 | 1.1064 | 33.1 | 21.691974 | 4.6875 | 38.14 | 5.12 
2.8346 |36. 61| 8. 46680308 | 2.95 |37.53| 8. 13559322 | 7.6518 | 45.3 | 3. 1365169 | 0.84 |38.53| 28.571429 | 2.938 | 35.6 | 8. 16882233 | 6. 1147 | 42.09 | 3. 9249677 
5.4084 |39.21| 4.4375416 | 5.52 40.55] 4. 34782609 | 10.754 |50.47) 2.2317277 | 1.08 |39.73| 22.222222 | 6.2215 |37.38| 3. 85759061 | 6.2256 | 42.1 | 3. 85505012 
7.722 |41.39| 3. 10800311 | 7.83 | 43.6 | 3.0651341 | 13.081 [54.17] 1.8347221 | 1.82 /42.73] 13. 186813 | 7.0051 |37.49| 3. 42607529 | 9.3947 | 49.93 | 2. 55463187 
11.654 |44. 11| 2. 05937875 | 11.72 |50.72| 2. 04778157 2.83 |46. 81 | 8. 4805654 

3.88 |50.81| 6. 185567 
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AIC, JPEG, JPEG 2000, HD Photo, H. 264 和 JPEG LS 的 仿真 结果 












































TE 


«lit | x83. VIT HLF 








M -AIC JPEG2000 HD photo H. 264 JPEG- baseline JPEG- LS 
An PSNR| = 4A Lt on PSNR| 压缩 比 PSNR| 压缩 比 — PSNR| 压缩 比 ae PSNR| 压缩 比 PSNR 压缩 比 
/dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) 
BR) 像素 ) 像素 ) 像素 ) 像素 ) 像素 ) 
0. 1143 123. 48 | 209. 973753 | 0. 16 |26.79 150 0. 023956 | 13.63} 1001. 8367 | 0.07 |25.01 | 342. 85714 | 0.15607 | 16.5 | 153. 777151 |0. 79056 | 22.47 | 30. 3582271 
0. 1517 123. 09 | 158. 206987 | 0.22 |28.59| 109. 090909 | 0.050842 |20. 58| 472.05067 | 0.12 [27.98 200 0. 17813 |19. 68} 134. 73306 | 1.007 | 24.76 | 23. 8331678 
0.1931 )26. 32) 124. 287934 | 0.26 |28. 98} 92. 3076923 | 0.12689 |26.34| 189. 1402 0.2 | 30.9 120 0.21967 |23. 47 | 109. 254791 | 1.3376 | 28. 16 | 17. 9425837 
0.2228 127.96| 107. 719928 | 0.31 |29. 86} 77. 4193548 | 0.30249 30.28] 79.341466 | 0.34 | 33.8 | 70.588235 | 0.25955 |24. 89 | 92. 4677326 | 1.6153 | 30.55 | 14. 8579211 
0.2788 128.98 | 86.0832138 | 0.41 |31.45 | 58. 5365854 | 0.73041 |34.57| 32.858258 | 0.59 |36. 84) 40. 677966 | 0.31259 |26.37| 76. 777888 | 2. 1247 | 33.65 | 11. 2957123 
0.3704 130. 38| 64. 7948164 | 0.46 {31.91} 52. 173913 1.01 |35.77| 23. 762376 1.01 140. 09 | 23. 762376 0.41 127.95 | 58. 5365854 | 3. 4128 |38. 825 | 7. 0323488 
0.44 131.32| 54. 5454545 | 0.58 | 33 | 41.3793103 | 1.9229 |38.91| 12.481148 1.68 |43.46| 14.285714 | 0.45526 | 28.5 | 52.7171287 | 4.6841 | 42.46 | 5. 1237164 
0.5542 132. 29 | 43. 3056658 | 0.76 |34. 18} 31.5789474 | 2.9306 |41.06| 8. 1894493 2.7 |48. 11] 8. 8888889 | 0.58221 |29.73 | 41. 2222394 | 5.7483 | 45.28 | 4. 17514743 
0.7413 133. 61 | 32. 3755565 | 1.13 |36.1 | 21.2389381 | 5.7585 | 45.7 | 4.167752 4,02 |52.88 | 5.9701493 | 0.76318 | 30.8 | 31.447365 | 7.429 |49.915 | 3. 23058285 
1.1075 | 35.4 | 21. 6704289 | 2.34 |39.24| 10.2564103 | 8.7902 |50. 54| 2.7303133 | 5.78 [59.88] 4. 1522491 | 1.1266 |32. 22| 21. 3030357 
2.2782 138.21| 10.5346326 | 4.06 |41.79| 5.91133005 | 11.135 | 54.2 | 2.155366 2.3382 | 34.3 | 10. 2643059 
3.9669 |40. 28| 6. 05006428 | 6.67 145.18 | 3. 5982009 4.0624 135.32 | 5. 90783773 
5.8615 141. 96| 4. 09451506 6.671 |35. 82 | 3. 59766152 
9.7702 144. 25 | 2. 4564492 
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AIC, JPEG, JPEG 2000, HD Photo, H. 264 和 JPEG LS 的 仿真 结果 












































TE 


<M | rag. VIT HLF 








M -AIC JPEG2000 HD photo H. 264 JPEG- baseline JPEG- LS 
An PSNR| 压缩 比 on PSNR| 压缩 比 PSNR| 压缩 比 — PSNR| 压缩 比 ae PSNR| 压缩 比 PSNR 压缩 比 
/dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) 
BR) 像素 ) 像素 ) 像素 ) 像素 ) 像素 ) 
0. 12134 |23.21 | 197.79133 | 0.17 |26.87)141. 176471 | 0.024567 |12.66| 976.92026 | 0.09 |26.27| 266. 66667 | 0. 15656 113. 87 | 153. 295861 | 0. 63406|19. 025 | 37. 8513074 
0. 15509 |24. 88 | 154. 748856 | 0.21 |27.35) 114. 285714 | 0.039886 |19.74| 601.71489 | 0.13 |28.91 | 184. 61538 | 0.17413 {17.97} 137. 828059 |0. 71481 | 19.9 | 33.5753557 
0. 19623 |25. 93 | 122. 305458 | 0.26 |28. 24) 92. 3076923 | 0.13266 |25. 66) 180. 91361 0.21 | 31.3 | 114. 28571 | 0.21042 |22.31| 114. 057599 |0. 77441 |20. 668 | 30. 9913353 
0.224 | 27.3 | 107. 142857 | 0.3 |28.95 80 0.214 |27.58) 112. 14953 | 0.34 133.44 | 70.588235 | 0.26248 |24. 61 | 91. 4355379 |0. 85931 | 21.63 | 27. 9293852 
0.27603 |28. 18 | 86. 947071 0.4 129.83 60 0. 32788 |29.22| 73.197511 0.61 | 35.4 | 39. 344262 | 0.29678 |25.41| 80.867983 |0. 95502 |22. 656 | 25. 1303638 
0. 36841 |29. 14 | 65. 1448115 | 0.46 [30.45) 52.173913 | 0.94431 132. 09 | 25. 415383 1.24 |38. 26} 19. 354839 | 0.40015 |27. 04) 59. 9775084 | 1.2293 | 25 |19. 5233059 
0.4447 | 29.8 | 53. 9689678 | 0.58 131.08 | 41.3793103 | 1.9774 {33.79} 12. 13715 2.29 |42.55| 10. 480349 | 0.46396 | 27.7 | 51. 7285973 | 1. 7383 |28. 165 | 13. 8065926 
0. 56726 | 30.5 | 42. 3086415 | 0.85 [32.13 | 28. 2352941 | 3.824 36.38} 6.2761506 | 3.62 |48.06| 6. 6298343 | 0.58496 {28.45 | 41. 0284464 | 2.2233 | 30.24 | 10. 7947645 
0. 82291 |31. 42 | 29. 1647932 | 1.72 |33.65) 13. 9534884 | 5.5888 39.19} 4.2943029 | 4.42 |51.02 | 5.4298643 | 0.84818 | 29.4 | 28. 2958806 | 3.1051 | 33.1 | 7. 72921967 
1.5903 |32. 83} 15.0914922 | 4.85 |37. 59| 4. 94845361 | 8.9885 |45.31| 2.6700784 | 5.02 |53.08) 4. 7808765 | 1.7238 | 30.8 | 13. 9227289 | 4.9356 | 38.24 | 4. 86263068 
4.2245 |36.09] 5.6811457 | 7.59 |41.22] 3. 16205534 | 12.115 50.51} 1.9810153 | 6.81 {60.33} 3.5242291 | 4.8457 |32. 46] 4. 95284479 | 6.3958 |42. 127 | 3. 75246255 
6.9234 139. 12 | 3. 4665049 14.428 |54.24] 1. 6634322 7.5877 | 32.8 | 3. 16301383 | 7.7596 |45. 128 | 3. 09294294 
9. 193 141. 44 | 2. 61068204 9.7025 |49. 896 | 2. 47358928 
13.128 |44. 25] 1. 82815356 





















































Wes JIV 9 


[SE 





质量 与 压缩 的 关系 
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HP/INSd 


AIC, JPEG, JPEG 2000, HD Photo, H. 264 和 JPEG LS 的 仿真 结果 





M -AIC JPEG2000 HD photo H. 264 JPEG- Baseline JPEG- LS 
比特 率 比特 率 比特 率 area d LV Hee s% 
EE |psNR| mae |“ pwr] Ea EE lnr) mae | A esm) mae | MR penR| maw | PRL PSNR | eae 
/( bit/ / (bit/ /( bit/ / ( bit/ /(bit/ /(bit/ 
/dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) 
像素 ) 像素 ) 像素 ) 像素 ) 像素 ) 像素 ) 





0.14911 |21.83 | 160.955 0.16 |23. 34 150 0.02417 |12.99| 992.96649 | 0.09 |23.52 | 266. 66667 | 0. 15973 |14. 96 | 150. 253553 |0. 83322 | 19. 526 | 28. 8039173 





0. 20798 |22. 92 | 115. 395711 | 0.24 [24.83 100 0. 039459 |18. 68] 608.22626 | 0.17 |26.16| 141. 17647 | 0.23822 |21. 15| 100. 747208 |0. 92972 |20. 164 | 25. 8142236 





0.27719 |23. 88 | 86.5832101 | 0.32 | 25.0 75 0.17169 | 23.9 | 139. 78683 0.3 |28.7 80 0. 31549 | 23.3 | 76.0721417 | 1.0504 | 20.81 | 22. 8484387 





0. 32007 |25. 11 | 74. 9835973 | 0.34 |25.76| 70. 5882353 0.3 25. 64 80 0.54 |31.26| 44. 444444 | 0.33929 123. 75 | 70. 7359486 | 1.177 |21. 705) 20. 3908241 





0.41559 |25.94| 57.749224 | 0.43 |26.35) 55. 8139535 | 0.48898 127. 19 | 49. 081762 1.01 |34. 08 | 23. 762376 | 0.43073 | 24.9 | 55. 7193602 | 1.3291 |22. 392 | 18. 057332 





0. 58453 |26. 97 | 41. 0586283 | 0.61 |27. 58 | 39. 3442623 | 1.5885 |30.53| 15. 108593 1.9 [38.38] 12.631579 | 0.60791 |26. 19 | 39. 4795282 | 1.7169 |24. 873 | 13. 9786825 





0. 73557 |27. 66 | 32.6277581 | 0.76 |28.25) 31.5789474 | 4.9777 36.31) 4. 8215039 3 43. 15 8 0.75742 |26. 84| 31. 6865147 | 2.3803 | 27.81 | 10. 0827627 





1.0123 | 28.5 | 23. 7083868 | 1.04 |29.22) 23.0769231 | 6.6033 39.35] 3.6345464 | 4.29 | 48.2 | 5.5944056 | 1.0437 |27. 66) 22.9951135 | 2.9586 | 30.09 | 8. 11194484 





1.5753 )29. 69} 15. 2351933 | 1.64 | 30.5 | 14. 6341463 | 9.9368 [45.34] 2.4152645 5.89 {53.08 | 4.0747029 | 1.6442 |28.71] 14. 5967644 | 3.9549 | 33.07 | 6. 06842145 














2.8327 |31. 68| 8. 47248208 | 3.01 |32. 44] 7.97342193 | 13.029 |50.46| 1. 8420447 3.0138 |29.96| 7. 9633685 | 5.9442 | 38.28 | 4. 03754921 
5.836 {35.82} 4. 11240576 | 6.33 |37.77| 3.79146919 | 15.346 [54.17] 1.5639255 6.334 131.37| 3. 78907483 | 7. 6394 | 42. 15 | 3. 14160798 
8.4369 139. 06| 2. 84464673 | 8.5 | 41.2 | 2.82352941 8.5009 |31. 49 | 2. 82323048 | 9.0952 | 45.15 | 2. 63875451 
10.61 |41.37| 2. 26201697 11.027 | 49.9 | 2. 17647592 















































14.704 |44. 13| 1. 63220892 
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HDPhoto 
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bit/ 像 素 


AIC, JPEG, JPEG 2000, HD Photo, H. 264 和 JPEG LS 的 仿真 结果 





M -AIC JPEG2000 HD photo H. 264 JPEG- Baseline JPEG- LS 
比特 率 比特 率 比特 率 area d LV Hee s% 
EE |psNR| mae |“ pwr] Ea EE lnr) mae | A esm) mae | MR penR| maw | PRL PSNR | eae 
/( bit/ / (bit/ /(bit/ /(bit/ /(bit/ /(bit/ 
/dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) 
像素 ) 像素 ) 像素 ) 像素 ) 像素 ) 像素 ) 





0. 10254 |27. 48 | 234. 055003 | 0.15 131. 26 160 0. 02359 |12.08| 339. 13 0.05 |28.5 480 0. 1528 |14. 89 | 157. 068063 |0. 44095 |20. 251 | 54. 4279397 





0. 10785 | 29 | 222.531293 | 0.19 131.81| 126.315789 | 0.030548 |21.35| 261. 88 0.07 131.62| 342. 85714 | 0. 16653 | 18.5 | 144. 118177 |0. 46967 |20. 798 | 51. 0997083 





0. 14493 | 31 | 165.597185 | 0.23 | 32.9 | 104. 347826 | 0.079132 |28. 03 101. 1 0.1 | 34.1 240 0. 18524 123. 07 | 129.56165 |0. 47461 |22. 537 | 50. 5678346 





0. 18427 |32.23 | 130. 243664 | 0.3 34 80 0. 17438 132. 01 45. 877 0.22 |36.95| 109. 09091 | 0.23126 | 26.9 | 103. 779296 |0. 61774 |24. 786 | 38. 8512967 





0.27219 |33. 85 | 88. 1737022 | 0.39 |34.98| 61.5384615 | 0.27927 |33.98| 28.646 0.6 140.11 40 0.29617 |29.05| 81.034541 |0. 84161 | 28. 86 | 28. 5167714 





0. 37198 |34. 86] 64. 5195978 | 0.62 |36.24| 38. 7096774 0.5 35. 55 16 1.23 43.09} 19. 512195 | 0.39349 | 30.5 | 60.9926555 | 1.0721 |31. 039 | 22. 3859715 





0. 5983 136. 27| 40. 1136554 | 1.76 |38.96} 13.6363636 | 0.75558 |37. 24 10. 588 2.28 [48.03 | 10.526316 | 0.62057 |31. 97 | 38. 6741222 | 1.5586 |34. 225 | 15. 3984345 





1.6328 |38. 48| 14. 6986771 | 3.62 | 41.3 | 6. 62983425 | 1.4252 |39.06| 5.6134 3.62 |52. 96| 6. 6298343 | 1.7577 (34.38) 13. 6542072 | 2.8232 | 39 | 8. 50099178 





3.3429 | 40.4 | 7. 17939514 | 6.17 |44.26| 3. 8897893 2.414 |40.88) 3.2337 5.02 |60. 06| 4. 7808765 | 3.6233 |35. 27 | 6. 62379599 | 3.9319 |42. 397 | 6. 10391922 





5.3046 |42. 07| 4. 52437507 | 9.16 149. 65| 2. 62008734 | 3.7391 |42.83| 2.1395 6.1726 |35. 76 | 3. 88815086 | 4. 8446 |45. 212 | 4. 95396937 





9.1562 |44. 37 | 2. 62117472 5.5261 |45. 65 1.4477 6. 4945 |49. 899 | 3. 6954346 





8.5522 |50. 56| 0.93543 





10.932 |54.23] 0.73183 
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Couple (256 x 256 x24) 


AIC, JPEG, JPEG 2000, HD Photo, H. 264 和 JPEG LS 的 仿真 结果 












































M -AIC JPEG2000 HD photo H. 264 JPEG- Baseline JPEG- LS 
An PSNR| = 4A Lt ns PSNR| 压缩 比 PSNR| 压缩 比 PSNR | 压缩 比 n PSNR| 压缩 比 PSNR 压缩 比 

/dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) 
像素 ) 像素 ) 像素 ) 像素 ) 像素 ) 像素 ) 
0. 12695 |25. 82 | 189. 050807 | 0.23 |28.24) 104. 347826 | 0.043945 |16.49|, 546. 137217 | 0.1 [28.52 240 0.22009 |19.49 | 109.0463 |0. 63611 |20. 094 | 37. 7293235 
0.1582 |26.57| 151.7067 | 0.27 |29.23 | 88. 8888889 | 0.050049 | 21.7 | 479. 530061 | 0.18 131.05 | 133. 333333 | 0.23071 |21.22| 104.0267 | 0.6593 | 20.63 | 36. 4022448 
0. 18762 |28. 03 | 127.918132 | 0.35 |30.21) 68.5714286 | 0.11401 |26.41| 210.50785 | 0.33 | 33.9 |72. 7272727) 0.26501 {24.09} 90.56262 |0. 76807 |21. 068 | 31. 247152 
0. 23975 |28.94| 100. 104275 | 0.43 [31.12) 55. 8139535 | 0.30103 130. 11| 79. 7262731 | 0.57 |36.95 142. 1052632] 0.349 {27.72} 68.767908 | 0. 8634 |22. 089 | 27. 7970813 
0. 32825 |30. 09 | 73. 1150038 | 0.54 |32.13) 44. 4444444 | 0.70605 133. 62 | 33. 9919269 1 40.5 24 0. 42932 |29. 14 | 55.902357 | 1.219 |24. 566) 19. 6882691 
0. 40479 |30. 84 | 59. 2900022 | 0.71 [33.23 | 33. 8028169 | 0.79602 |34. 09| 30. 1499962 | 1.63 |44. 07 |14. 7239264 | 0.54102 |30.63) 44. 360652 | 1.7167 |27. 642 | 13. 9803111 
0. 51587 |31. 76 | 46. 5233489 | 1.13 [35.39 | 21.2389381 | 2.2512 |38.46| 10. 6609808 | 2.59 |48.35 |9. 26640927 | 0. 70703 |31.97) 33.944811 | 2.106 |30. 248} 11. 3960114 
0. 70776 | 32.9 | 33. 9097999 | 2.74 |39.07) 8. 75912409 | 3.4338 140. 72| 6. 98934125 | 3.84 |52.78 6.25 1. 1259 [33.81] 21.31628 | 2.7726 |33. 398 | 8. 65613504 
1.1217 [34.58 | 21. 3960952 | 4.56 |41.78| 5. 26315789 | 6.3629 |45. 18| 3. 77186503 | 5.28 [59.23 |4. 54545455 | 2.7365 /36.76) 8. 7703271 | 4.002 |38.621) 5.9970015 
2.5236 | 37.5 | 9. 51022349 | 6.5 144.73 | 3. 69230769 | 9.3762 |50. 16| 2. 55967236 4. 5638 {38.21} 5.2587756 | 5.1161 |42. 392 | 4. 69107328 
4.3724 | 39.9 | 5. 48897631 11.708 {54.24} 2. 04988042 6.5031 {38.68} 3. 6905476 | 6. 1143 |45. 309 | 3. 92522447 
6.2196 |41.75 | 3. 85876905 7. 1155 |50. 021 | 3. 08661822 
9.9216 |44. 11 | 2. 41896468 
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质量 与 压缩 的 关系 
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Cameraman (256 x256 x8) 


AIC, JPEG, JPEG 2000, HD Photo 和 JPEG LS 的 仿真 结果 















































TEAM 


«lit | or agy. V9CH LE 








M - AIC JPEG2000 HD photo JPEG- Baseline JPEG- LS 
比特 率 “| PSNR | EAE 比特 率 | PSNR | EAE 比特 率 | PSNR | JEE 比特 率 | PSNR | EAE 比特 率 PSNR | 压缩 比 
/(Div 像 素 ) | /dB (CR) |/(biv 像 素 ) | /dB | (CR) |/(Div 像 素 ) | /dB (CR) |/(biv 像 素 ) | /dB | (CR) | /A(bity 像 素 ) | /dB | (CR) 
0.16101 | 24.19 | 49. 686 0.23 | 26.15) 34.783 | 0.044067 | 15.08 | 181.54 0.22766 | 16.91} 35.14 2. 6743 45.5 | 2.9914 
0.23462 | 25.69 | 34. 098 0.3 | 27.73 | 26.667 | 0.062256 | 19.97] 128.5 0.29504 | 23.39} 27.115 2. 2651 42.46 | 3.5318 
0.27844 | 27.09 | 28.731 0.36 | 28.73) 22.222 | 0.19922 | 25.73} 40.157 0.35669 | 25.4 | 22.428 1. 7388 38.73 | 4. 601 
0.35815 |28.19 | 22.337 0.49 | 30.4 | 16.327 | 0.47461 | 30.18 | 16.856 0.48901 | 27.49} 16.359 1. 1558 33.46 | 6.9218 
0.48804 | 29.71 | 16. 392 0.59 | 31.33] 13.559 0.939 | 35.14) 8.5156 0.59253 | 28.76} 13. 501 0.91016 | 30.334 | 8.7897 
0.59216 | 30.74] 13.51 0.73 | 32.97] 10.959 1.0066 | 35.82] 7.9476 0.73438 | 30.15} 10.894 0.75732 | 27.68 | 10.564 
0.73218 | 32.05} 10.926 0.94 | 35.16) 8.5106 1.832 [41.45] 4.3667 0.94214 | 31.74] 8.4913 0.56799 | 24.07 | 14.085 
0.94409 | 33.84 | 8.4738 1.3 [38.81 | 6.1538 2.4185 | 44.15 | 3.3079 1.2992 | 34.15] 6.1577 0. 45667 | 21.68 | 17.518 
1.2936  |36.44 | 6. 1844 2.06 | 43.15) 3.8835 3.4471 | 49.24] 2.3208 2.0635 | 38.8 | 3.877 0.39392 | 20.92 | 20. 309 
1.9724 40.75] 4.0559 2.92 | 45.97] 2.7397 4.5032 | 53.83] 1.7765 2.9231 | 43.06 | 2. 7368 0.36206 | 20.66 | 22.096 
2.8062 | 43.93 | 2.8509 3.56 | 48.87] 2.2472 5.3182 | 59.83 | 1.5043 3.5594 | 45.6 | 2.2475 
3.5699 | 46.48 | 2.2409 4.3 | 54.66] 1.8605 5.5785 | 58.53] 1.4341 
5.0234 | 49.98 | 1.5925 4.4 | 57.86} 1.8182 
4.5 | 60.93 | 1.7778 
5.57 | 81.52] 1.4363 
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AIC, JPEG, JPEG 2000, HD Photo 和 JPEG LS 的 仿真 结果 






































M -AIC JPEG2000 HD photo JPEG- Baseline JPEG- LS 
比特 率 ”| PSNR | ”压缩 比 比特 率 ”| PSNR | ”压缩 比 比特 率 | PSNR | ”压缩 比 比特 率 ”| PSNR | ERE 比特 率 ”| PSNR | 压缩 比 
/(bi/ RR) | /dB (CR) “|/(bivv 像 素 ) | /dB | (CR) | /(bit/ RH) | /dB (CR) |/(biv 像 素 ) | /dB | (CR) | /(bit/ RHE) | /dB | (CR) 
0.097046 | 28.03 | 82. 435 0.1 | 29.26 80 0.044678 | 15.76 | 179.06 0.22656 | 19.2 | 35.31 0.22131 | 19.373 | 36. 148 
0.13342 | 31.59 | 59.96 0.23 | 35.71 | 34.783 | 0.055298 | 22.77] 144.67 0.25427 | 25.63] 31.462 0. 24207 | 19.88 | 33.049 
0.16101 | 33.25 | 49. 686 0.25 | 36.05 2 0. 10913 | 29.53] 73. 306 0.31604 | 31.55] 25.313 0.25549 | 20.275) 31.312 
0.21375 | 34.9 | 37.428 0.32 | 37.66 25 0.17114 | 32.66] 46.745 0.45386 | 36.67] 17.627 OF 1226 ae) 21a 25862 
0.25049 | 36.01 | 31. 938 0.45 [39.21 | 17.778 | 0.20679 | 34.04} 38.687 0.85303 | 42.33] 9.3784 0.33435 | 23.51 | 23.927 
0.31982 | 37.47] 25.014 0.85 {43.15 | 9.4118 | 0.32117 | 37.6 | 24. 909 1.3411 | 45.52} 5.9654 0.3623 | 24.64 | 22.081 
0.45251 | 39.42} — 17.679 1.34 | 45.66] 5.9701 | 0.38928 | 38.87] 20.551 1.9014 | 47.95 | 4. 2075 0.4585 | 27.79 | 17.448 
0.85022 | 42.89 | 9. 4093 1.9 | 48.76} 4.2105 | 0.75366 | 43.48} 10.615 3.4674 | 55.47] 2. 3072 0.54395 | 30.225 | 14. 707 
1. 332 45.5 | 6.0059 2 JSL a 1.0673 | 45.86 | 7.4958 0.70203 | 33.43 | 11.396 
1.8369 | 47.49) 4.3551 3 58.02 | 2. 6667 1.7921 | 49.99} 4.464 0.9845 | 38.77 | 8.126 
2.9894 | 50.28] 2.6761 3.47 | 71.41 | 2.3055 2.7471 | 54.05) 2.9122 1.2136 | 42.598 | 6.5918 
3.6007 | 59.7 | 2.2218 1.4169 | 45.45 | 5.6462 
1. 7649 50 | 4.5329 
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AIC, JPEG, JPEG 2000, HD Photo, H. 264 和 JPEG LS 的 仿真 结果 












































M -AIC JPEG2000 HD photo H. 264 JPEG- Baseline JPEG- LS 
An PSNR| = 4A Lt on PSNR| 压缩 比 PSNR| 压缩 比 — PSNR| 压缩 比 ae PSNR| 压缩 比 PSNR 压缩 比 
/dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) 
BR) 像素 ) 像素 ) 像素 ) 像素 ) 像素 ) 

1.3 121.44| 18.4615385 | 2.4 |16.25 10 1.7422 |13.36| 13.7756859 | 0.47 [18.94 /51.0638298 | 6.29 |19.47| 3. 8155803 | 2.6875 |17. 788) 8. 93023256 
1.58 [22.48] 15. 1898734 | 2.59 |17.09] 9. 26640927 1.75  |15. 82} 13. 7142857 | 0.72 | 22.2 133.3333333 | 6.54 [21.22] 3. 6697248 | 2.6953 |19. 164 | 8. 90438912 
1.78 [23.62] 13. 4831461 | 3.69 |21.23 | 6. 50406504 | 2.0078 |20.65}| 11.9533818 | 1.09 |25.35 22.0183486 | 6.66 /|24.76) 3. 6036036 | 2. 8359 |20. 548 | 8. 46292182 
2.32 |25. 18) 10. 3448276 | 4.8 |24.37 5 2.7188 |24. 99| 8. 82742386 | 1.72 | 28.8 |13.9534884| 6.79 124.941 3. 5346097 | 3.8516 |20. 838 | 6. 23117665 
2.75  |26.09) 8. 72727273 | 4.91 |24. 56| 4. 88798371 | 4.3516 {30.08} 5.5152128 | 2.59 [33.56 |9. 26640927) 7.08 |25.83| 3.3898305 | 3.9453 |22. 566 | 6. 08318759 
3.24 |27. 15) 7. 40740741 | 6.69 |29.21 | 3. 58744395 | 5.1406 [32.05] 4. 66871571 | 3.69 |38. 1416. 50406504| 7.45 |26.44| 3.2214765 | 4.3203 | 23.15 | 5. 55516978 
5.52 |31. 43 | 4. 34782609 | 7.72 [30.71 | 3. 10880829 Tail 36. 06 | 3. 38028169 | 4.91 |42. 66 |4. 88798371 | 8.16 27.9 | 2.9411765 | 4.9531 |26. 653 | 4. 84545032 
6.68  |32. 85) 3. 59281437 | 9.5 | 34.4 | 2. 52631579 | 7.4844 |36.76| 3. 20666987 | 6.69 |47. 45 |3. 58744395 | 9.54 30.03) 2. 5157233 5.5 |29. 283 | 4. 36363636 
7.52 133.81| 3. 19148936 | 12.84 | 40.2 | 1. 86915888 | 8.8984 |39. 82| 2. 69711409 | 7.06 [48.38 |3. 39943343 6. 3438 |32. 735 | 3. 78322141 
9.48 |36. 12| 2. 53164557 | 19.5 |52.85| 1. 23076923 | 12.602 {45.47} 1. 90445961 | 7.72 | 49.4 |3. 10880829 8. 5234 | 38.47 | 2. 81577774 
12.66 [39.35] 1. 8957346 16.391 | 50.6 | 1. 46421817 | 9.5 |52. 17 |2. 52631579 10. 234 | 42.13 | 2. 3451241 
15.59 |41. 59| 1. 53944836 19.539 |54.29| 1. 22831261 | 12.84 |58. 55 |1. 86915888 11.883 | 45.1 | 2.019692 
21.11 144.16) 1. 13690194 14.719 | 49. 89 | 1. 63054555 
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AIC, JPEG, JPEG 2000, HD Photo, H. 264 和 JPEG LS 的 仿真 结果 
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M -AIC JPEG2000 HD photo H. 264 JPEG- Baseline JPEG- LS 
An PSNR| 压缩 比 on PSNR| 压缩 比 PSNR| 压缩 比 — PSNR| 压缩 比 ae PSNR| 压缩 比 PSNR 压缩 比 
/dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) 
BR) 像素 ) 像素 ) 像素 ) 像素 ) 像素 ) 
0.55 |22.1 | 43. 6363636 | 0.66 |16.51| 36. 3636364 | 0.45508 |13.06} 52.7379801 | 0.25 |21.07 96 1.83 |20.45} 13. 114754 | 1.998 | 17.96 | 12. 012012 
0.67 |22.65) 35. 8208955 | 1.05 |21.31] 22. 8571429 | 0.48047 |16.53} 49.9510896 | 0.41 [23.21 |58. 5365854] 2.05 |22.69| 11. 707317 | 2.2109 |19.545 | 10. 8553078 
0.8 23.77 30 1.7 25.28} 14. 1176471 | 0.74023 |22.11| 32.4223552 | 0.66 | 26.8 |36. 3636364 | 2.24 |24.69}| 10. 714286 | 2.752 |21. 298] 8. 72093023 
0.96 124. 57 25 2  |26.63 12 1.2852 |26.27| 18.6741363 | 1.05 130.25 |22. 8571429 2.4 25. 73 10 2.9414 |22. 936 | 8. 15937989 
1.26 |26.09) 19.047619 | 2.61 |28.97] 9. 1954023 2.502 [31.26 | 9. 59232614 1.7 |34.14)14.1176471 | 2.62 |26.41}| 9. 1603053 | 3.1797 |23. 686] 7. 54788188 
1.53 [27.14] 15. 6862745 | 3.64 |31.99] 6. 59340659 | 3.6328 |34.24| 6. 60647434 | 2.61 138.73 | 9. 1954023 2.84 {27.03} 8.4507042 | 3.8184 | 27.08 | 6. 28535512 
1.88 [28.29] 12. 7659574 | 4.92 |35. 26] 4. 87804878 | 5.0078 |37.57| 4. 79252366 | 3.64 |43.11/6.59340659|) 3.06 [27.61] 7. 8431373 | 4.2676 | 29.61 | 5. 6237698 
2.47 |29.92| 9.71659919 | 7.03 |39. 81] 3.41394026 | 6.3262 |40.42| 3. 79374664 | 4.92 |47.74|4. 87804878 3.4 28.49 | 7.0588235 | 4.9766 |32. 756 | 4. 82256963 
3.59 32.31) 6. 68523677 | 9.92 |45.37 | 2. 41935484 | 9.3984 | 45.7 | 2.55362615 | 7.03 |52.02)3.41394026| 3.92 {29.43} 6.122449 | 6.5918 | 38.26 | 3. 64088716 
6.38 136. 56| 3. 76175549 12.43 |50.56| 1.93081255 | 9.92 |58.28)2.41935484 | 5.12 |31.71| 4.6875 8.0254 | 42.22 | 2. 99050515 
9.17 |39.62) 2.6172301 14.994 |54. 32| 1. 60064026 9.3516 | 45.24 | 2. 56640575 
11.85 |41. 68 | 2. 02531646 11. 346 |49. 863 | 2. 11528292 
16.85 |44. 18 | 1. 42433234 
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AIC, JPEG, JPEG 2000, HD Photo, H. 264 和 JPEG LS 的 仿真 结果 






































M -AIC JPEG2000 HD photo H. 264 JPEG- Baseline JPEG- LS 
An PSNR| 压缩 比 on PSNR| 压缩 比 PSNR| 压缩 比 — PSNR| 压缩 比 ae PSNR| 压缩 比 PSNR 压缩 比 
/dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) 
BR) 像素 ) 像素 ) 像素 ) 像素 ) 像素 ) 
0.35 124.27| 68.5714286 | 0.16 115. 09 150 0. 12646 |12.92| 189.783331 | 0.16 |22.59 150 0.66 {21.69} 36. 363636 | 1.3438 |18. 105 | 17. 8598006 
0.41 126.08] 58. 5365854 | 0.25 |20.24 96 0. 15381 |17. 78} 156.036669 | 0.25 | 25.3 96 0.82 {24.47} 29.268293 | 1.5869 | 20.04 | 15. 1238263 
0.52 |26. 27] 46. 1538462 | 0.41 |23. 29] 58. 5365854 | 0.32178 | 23.6 | 74.5851203 | 0.41 [28.26 |58. 5365854] 0.95 |25.64| 25. 263158 | 1.9668 | 21.63 | 12. 2025625 
0.72 |27.65) 33. 3333333 | 0.58 |25.21] 41. 3793103 | 0.73828 | 27.8 | 32.5079915 | 0.71 {31.51 /33. 8028169] 1.05 |26.46) 22. 857143 | 2.1777 |22. 753 | 11. 0208018 
0.86 |28. 59| 27. 9069767 | 0.71 |25. 99 | 33. 8028169 12 30. 65 20 1.18 |35.32|20.3389831| 22 27.7 | 19.072131 | 2.3687 | 23.99 | 10. 13214 
1.08 130.99 | 22.2222222 | 1.18 129.27| 20.3389831 | 1.6196 |32.49| 14.8184737 | 1.85 139.531 12. 972973 1.39 |28.41| 17.266187 | 2.9106 | 27.35 | 8. 24572253 
1.44 |31.3 | 16.6666667 | 1.85 |32.52] 12.972973 | 2.4238 [35.39] 9.90180708 | 2.7 |43.46/8. 88888889) 1.57 |28.96) 15. 286624 | 3.3203 | 29.07 | 7. 22826251 
2.21 |33.65] 10. 8597285 | 2.7 |35.38] 8. 88888889 | 3.5337 {38.32} 6. 79174803 | 3.85 |47.76|6. 23376623 | 1.74 |29.58] 13. 793103 | 3.9902 |33. 057| 6. 0147361 
4.11 |37.42| 5. 83941606 | 3.85 | 38.4 | 6.23376623 | 4.6812 140.94] 5. 12689054 | 5.38 | 52.4 |4. 46096654| 2.01 {30.33} 11.940299 | 5.3867 |38. 414 | 4. 45541797 
6.23 |40. 13] 3. 85232745 | 5.38 |41. 18 | 4. 46096654 | 7.5483 {45.88} 3. 17952387 | 7.74 |58.52}3. 10077519) 2.44 [31.42] 9. 8360656 | 6.5757 |42. 195 | 3. 64980154 
8.41 41.97) 2. 85374554 | 7.74 |44.54| 3. 10077519 | 10.65 [50.51 ) 2. 25352113 7.7295 | 45.2 | 3. 10498739 
13.18 |44. 26] 1. 82094082 | 10.8 |49.95 | 2.22222222 | 13.076 [54. 18) 1. 83542368 9. 3696 |49. 926 | 2. 56147541 
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AIC, JPEG, JPEG 2000, HD Photo, H. 264 和 JPEG LS 的 仿真 结果 
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M -AIC JPEG2000 HD photo H. 264 JPEG- Baseline JPEG- LS 
An PSNR| = 4A Lt on PSNR| 压缩 比 PSNR| 压缩 比 oo PSNR| 压缩 比 ae PSNR| 压缩 比 PSNR 压缩 比 
/dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) 
BR) 像素 ) 像素 ) 像素 ) 像素 ) 像素 ) 
0.22 120.11| 109.090909 | 0.09 | 21 | 266.666667 | 0.0448 |12.96| 535.714286 | 0.09 |24. 45 |266. 666667) 0.33 |23.15) 72.727273 | 1.0103 |18. 206 | 23. 7553202 
0.25 |26. 92 96 0.16 |23. 83 150 0. 062378 |19. 04| 384. 751034 | 0.16 |26.92 150 0. 45 26 | 53. 333333 | 1.0494 |19. 455 | 22. 8702115 
0.32 127.85 75 0.27 |26.37| 88. 8888889 | 0.11548 | 23.2 | 207. 828195 | 0.27 |29. 87/88. 8888889 | 0.55 {27.46} 43. 636364 | 1. 1318 |20. 041 | 21. 2051599 
0.44 | 29.2 | 54. 5454545 | 0.46 |28.98| 52. 173913 | 0.17786 |25.22| 134.937591 | 0.46 {32.81} 52. 173913 0.63 |28.33} 38.095238 | 1.2928 |20. 583 | 18. 5643564 
0.52 |30.09] 46. 1538462 | 0.7 |31.08 | 34. 2857143 | 0.44263 | 29.3 | 54. 2213587 | 0.7 | 36.2 |34.2857143| 0.71 29 | 33.802817 | 1.4529 |21. 906 | 16. 5186868 
0.65 |31. 12] 36. 9230769 | 1.32 |33.44] 18. 1818182 | 1.0736 {33.69} 22.3546945 | 1.32 |39.94/18. 1818182) 0.78  |29.52) 30. 769231 | 1.6145 |22. 988 | 14. 8652834 
0.9 32.45} 26. 6666667 | 2.06 136.77| 11. 6504854 | 2.6025 |38.49| 9. 22190202 | 2.06 | 43.4 |11. 6504854| 0.92 30.3 | 26. 086957 | 1.7871 |24.314 | 13. 4295786 
1.39 |34.45) 17. 2661871 | 3.2 [39.18 ha 3.7887 |40. 68) 6. 33462665 | 3.2 147.76 7.5 1.04 |30.94| 23.076923 | 2.2773 |27. 645 | 10. 5387959 
2.79 | 37.6 | 8. 60215054 | 4.6 |41.02| 5.2173913 | 6.9186 |45.54| 3.4689099 4.6 [52.63 | 5. 2173913 1.18 31.5 | 20. 338983 | 2.6547 |29. 924 | 9. 04056956 
4.66 {39.89} 5. 15021459 | 6.56 |43.59) 3. 65853659 | 10.043 50.48} 2. 38972419 | 6.56 |59.32|3. 65853659} 1.38 {32.21} 17.391304 | 3.2648 |33. 276 | 7. 35113943 
6.87 | 41.8 | 3. 49344978 12.416 |54. 19| 1.93298969 | 8.37 |76. 17 |2. 86738351} 1.72 33.25} 13.953488 | 4.6106 |38. 568 | 5. 20539626 
12.07 |44.25 | 1. 98840099 2:52 35.1 | 9. 5238095 | 5.828 |42.324 | 4. 11805079 
6.9159 |45. 233 | 3. 47026417 
8. 5831 |49. 895 | 2. 79619252 
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Test Images M -AIC JPEG2000 HD photo H. 264 JPEG- Baseline JPEG- LS 
比特 率 比特 率 比特 率 比特 率 比特 率 比特 率 
PSNR | 压缩 比 PSNR | 压缩 比 PSNR | 压缩 比 PSNR | 压缩 比 PSNR | 压缩 比 PSNR | 压缩 比 
/ (bit/ / ( bit/ / ( bit/ / (bit/ / ( bit/ / (bit/ 
/dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) /dB (CR) 
BR) BR) BR) BR) 像素 ) 像素 ) 
Airplane 
1.1075 | 35.4 |21.670429| 1.13 | 36.1 | 21. 238938 1.01 |35.77| 23. 762376 | 1.01 |40. 09 |23. 762376 | 1. 1266 |32. 22 | 21. 303036 | 1.007 | 24. 76 |23. 833168 
(512 x512 x24) 
Lena 
2.8346 |36. 61 |8. 4668031 | 2.95 |37. 53 | 8. 1355932 2.88 [37.74 | 8. 3333333 | 2.83 |46. 81 |8. 4805654 | 2.938 | 35.6 | 8. 1688223 | 2. 8064 |32. 425 |8. 5518814 
(512 x512 x24) 
Peppers 
1.5903 |32. 83 |15. 091492 | 1.72 |33.65] 13. 953488 | 1.9774 |33.79| 12.13715 | 1.24 138. 26 |19. 354839 | 1.7238 | 30.8 | 13. 922729 | 1.7383 |28. 165 |13. 806593 
(512 x512 x24) 
Sailboat on Lake 
0. 32007 |25. 11 |74. 983597 | 0.32 | 25.6 75 0.3 25. 64 80 0.3 | 28.7 80 0. 31549 | 23.3 | 76.072142 |0. 83322 |19. 526 | 28. 803917 
(512 x512 x24) 
Splash 
3.3429 | 40.4 |7. 1793951] 3.62 | 41.3 | 6. 6298343 | 3.7391 |42.83] 2. 1395 3.62 |52. 96 | 6. 6298343 | 3.6233 |35.27| 6.623796 | 3.9319 |42. 397 |6. 1039192 
(512 x512 x24) 
Couple 
0. 70776 | 32.9 | 33.9098 | 0.71 133. 23 | 33. 802817 | 0.70605 |33. 62 | 33.991927 | 0.57 |36. 95 | 42. 105263 |0. 70703 |31. 97 | 33. 944811 |0. 76807 |21. 068 |31. 247152 
(256 x 256 x24) 
Lena 
6.68 |32. 85 |3. 5928144 | 6.69 |29.21| 3. 5874439 7.1 36. 06 | 3. 3802817 | 6.69 |47. 45 |3. 5874439 | 6.66 |24. 76 | 3. 6036036 | 6. 3438 |32. 735 |3. 7832214 
(32 x32 x24) 
Lena 
3.59 132.31 |6. 6852368 | 3.64 131. 99 | 6. 5934066 | 3.6328 |34.24| 6. 6064743 | 3.64 |43. 11 |6. 5934066 | 3.92 |29.43| 6.122449 | 3.8184 | 27.08 |6. 2853551 
(64 x64 x24) 
Lena 
1.08 |30. 99 |22. 222222 | 1.18 |29. 27 | 20. 338983 1.2 30. 65 20 1.18 |35. 32 |20. 338983 | 1.22 | 27.7 | 19.672131 | 1.3438 |18. 105 |17. 859801 
(128 x 128 x24) 
Lena 
0. 44 29.2 |54. 545455 | 0.46 |28.98 | 52. 173913 | 0.44263 | 29.3 | 54.221359 | 0.46 |32.81 |52. 173913 | 0.45 26 | 53. 333333 | 1.0103 |18. 206 | 23. 75532 
(256 x 256 x24) 
Cameraman 
0. 94409 | 33. 84 | 8.4738 0.94 |35.16) 8.5106 0.939 |35.14] 8.5156 0. 94214 |31.74| 8.4913 |0. 91016 |30. 334) 8.7897 
(256 x 256 x8) 
Man 
0. 31982 |37.47| 25.014 0.32 |37.66 25 0. 32117 | 37.6 24. 909 0. 31604 |31.55| 25.313  |0. 31226] 21.51 25. 62 
(256 x256 x8) 
























































附录 G 面向 高 清 视频 编码 的 更 高 阶 二 维 
整数 余弦 变换 


本 附录 基于 Madhu Peringassery Krishnan 的 学 位 论文 。 
欲 知 详情 ， 请 参见 UTA 的 EE5359 课程 网 址 http: //www-ee. uta. edu/Dip/ 
Courses/ EE5359/ index. html. 上 的 Thesis/Project Title, 


G.1 离散 余弦 变换 与 视频 压缩 


H. 264/ AVC 和 AVS- video 是 两 个 应 用 范围 宽广 的 视频 编码 标准 ， 涵 盖 范 围 从 
高 端的 专业 摄像 机 和 编辑 系统 到 低 端的 移动 应 用 。 它 们 力求 最 大 的 压缩 效率 ， 而 不 
牺牲 视频 质量 。 为 此 ， 它 们 定义 了 许多 编码 工具 。 变 换 编码 是 其 中 之 一 。 

变换 编码 在 另 一 个 域 (变换 域 ) 中 表示 信号 /图 像 (当前 是 在 时 域 /空域 )， 变 
换 域 中 信和 号/ 图像 的 大 多 数 能 量 集 中 在 少数 的 系数 上 。 这 样 ， 在 变换 编码 之 后 不 重 
要 的 系数 就 会 被 丢弃 以 实现 压缩 。 在 图 像 / 视 频 中 DCT-I ( 它 把 信和 号/ 图像 表 示 为 
不 同 频率 余弦 函数 的 加 权 和 ) 主要 用 于 变换 编码 。 

H. 264/AVC 和 AVS- video 利用 DCT-I  ( 叫 作 整数 余弦 变换 ) 的 整数 近似 ， 通 
过 仅仅 执行 定点 算术 运算 并 消除 正 向 和 逆向 变换 之 间 的 失 配 来 降低 计算 复杂 度 。 所 
用 的 整数 余弦 变换 的 阶 数 (大 小 ) 不 大 (4x4 和 8 x8)。 对 于 标清 和 低 分 辨 率 视 
频 ， 它 们 实现 了 最 好 的 编码 效率 。 但 是 通过 使 用 更 高 阶 的 整数 余弦 变换 (16 x 16 
和 32 x32) 对 高 清 视频 可 以 实现 更 好 的 编码 效率 。 因 为 高 清 视频 正在 变 得 越 来 越 
流行 ， 不 可 避免 地 它们 迟早 会 被 融和 人 到 标准 之 中 。 为 此 目的 ， 人 们 提出 了 许多 高 阶 
(16 x16 和 32 x32) 整数 余弦 变换 。 但 是 针对 这 些 H. 264/AVC 和 AVS- video 的 高 
阶 整数 余弦 变换 性 能 的 比较 研究 仍 尚 未 进行 。 

本 附录 的 目的 在 于 分 析 一 些 高 阶 16 x 16 的 整数 余弦 变换 ， 在 H. 264/AVC 和 
AVS- video 中 实现 他 们 ， 并 进行 它们 性 能 的 比较 研究 。 

AARIA A! (DCT-I) [1] 由 Ahmed，Natarajan， 和 Rao 提出 ， 是 那 
么 多 图 像 和 视频 压缩 标准 的 基本 构件 。 由 于 它 的 能 量 会 聚 特性 ，DCT-II 被 认为 是 
接近 最 优 Karhunen- Loeve transform (KLT) 变换 的 最 好 的 次 优 正 交 变换 。KLT 变换 
通过 空间 去 相关 将 能 量 集 中 于 少量 的 系数 上 。DCT-I 也 是 一 个 由 正 交 基 矢 量 组 成 
的 西 变换 。 

大 小 为 8 的 DCT-I 用 于 许多 视频 标准 中 , 例如 再 261, JPEG, MPEG-1, 
MPEG-2、H.263、 和 MPEG-4 [B9,，115，S11]。 典 型 的 大 小 为 8 的 二 维 DCT-II 可 
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以 分 离 为 两 个 一 维 变 换 ， 首 先 沿 着 图 像 或 视频 帧 的 一 条 轴 执 行 ， 然 后 再 沿 着 前 一 
程 结 果 的 男 一 条 轴 执 行 ， 如 图 G. 1。 


ef 








= y > = 


fay ) > c(x,v) c(u,v) 


Y 














E 


图 G.1 DCT-I 的 可 分 离 特性 








产生 的 余弦 值 难 以 近似 成 定点 精度 的 整数 ， 因 而 在 实际 应 用 中 产生 售 人 误差 。 
舍 人 误差 会 在 计算 中 引入 足够 的 误差 ， 从 而 改变 了 变换 的 正 交 特性 。 

定点 实现 问题 可 以 通过 以 下 两 种 途径 解决 : (1) 将 余弦 值 近似 为 整数 值 或 
(2) 通过 保持 余弦 和 矩阵 的 相对 幅度 、 关 系 和 余弦 值 的 对 称 性 来 创建 一 个 可 逆 的 整 
数 余 弦 和 矩阵 [4、16、17、H41。 第 一 种 方法 导致 编码 带 和 译 码 絮 中 变换 的 失 配 实 
现 从 而 引入 不 当 的 结果 。 第 二 种 方法 是 规定 一 个 基于 整数 的 变换 ， 该 变换 可 被 精确 
地 规定 而 且 在 编码 融和 详 码 厅 中 易于 实现 。 而 且 ， 对 它们 的 设计 要 保证 正 变换 和 逆 
变换 是 完全 可 逆 的 ， 因 而 也 是 完全 正 交 的 。 


G.2 整数 余弦 变换 


通过 用 整数 代替 DCT-II 和 矩阵 中 的 实 值 元 素 ， 同 时 保持 矩阵 元 素 间 的 相对 幅 值 
和 正 交 关系 ， 可 以 从 DCT- 工 生成 整数 余弦 变换 (ICT) [I6]。 整 数 变换 系数 使 得 
计算 过 程 烈度 较 轻 ， 该 过 程 实现 类 似 于 DCT-I 的 能 量 会 聚 作用 。 它 可 以 用 整数 计 
算 来 实现 而 没有 编码 带 和 译 人 码 带 之 间 的 失 配 问题 。 而 且 ， 人 们 已 经 制定 出 实现 它们 
的 快速 算法 。 编 码 器 和 译 码 需 的 典型 框图 见 本 书 15 页 图 1. 4。 

对 于 大 于 四 的 阶 数 ，ICT 的 正 交 性 取决 于 变换 矩阵 的 元 素 。 由 于 这 种 限制 ， 元 
素 的 幅 值 对 于 大 的 ICT (16 阶 ICT) 趋 于 相当 大 [17]。 通 过 利用 二 值 对 称 原理 ， 
这 促成 了 相互 正 交 的 ICT 的 发 展 【到 ] 。 这 样 ， 变 换 和 矩阵 的 元 素 可 以 不 受 正 交 性 约 
束 而 选 出 来 。 通 常 ， 元 素 的 幅 值 被 设计 得 很 小 (由 4 ~ Sbit 表示 ) 以 便于 简单 的 
实现 。 

最 近 几 年 中 ，ICT 已 被 广泛 用 于 视频 编码 中 ， 如 H. 264 [H11] 中 的 4 阶 和 8 
阶 ICT， 中 国 音 视 频 编 码 标准 (AVS) [AVS] 的 8 阶 ICT， 和 WM9-9 [C2]. 

视频 图 像 / 帧 间 的 空间 相关 是 彼此 相 邻 的 样 值 /像素 间 相 关 度 的 统计 测度 
[B5 ] 。 与 较 低 分 辩 率 视频 相 比 ， 高 清 视 频 具 有 更 高 的 空间 相关 度 [ H26 ]。 式 
(G.1) 定义 的 相关 系数 度量 了 邻近 样 值 /像素 的 相关 度 ， 且 可 被 认为 是 一 个 随机 过 
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fz [B6]. 


pmp _El (x(m) =w) (ry) —[) | (G.1) 


TT, 
式 中 ， 符 号 和 浆 表 示 附 近 的 样 值 ; x (n, ) 和 x(n, ) 表 示 样 值 n A n REA (其 
中 和 nn, 沿 着 行 选取 以 便于 r(n,，n,)) 给 出 水 平 相关 系数 ); Am 、 上 和 ol e 
别 表示 均值 和 标准 差 ; E 是 期 望 运 算 符 。 表 G. 1 给 出 针对 不 同 分 辩 紊 的 视频 序列 的 
预测 残 差 计算 出 的 相关 系数 。 这 里 > (1) 是 相 邻 像素 的 相关 度 , r (2) 是 间隔 像 
AINAKIE, ya 和 /是 它们 各 目的 均值 ，r, 和 ev 是 它们 各 目的 标准 差 。 从 表 G. 1 
可 以 看 出 ， 高 清 视频 序列 的 jw 比较 低 分 辩 率 视频 相对 较 高 ， 如 冤 视 频 图 形 阵列 
(WVGA) 和 宽 1/4 视频 图 形 阵列 (WQVGA)。 而 且 ， 对 于 较 低 分 辨 京 的 视频 序列 
/几乎 为 零 ， 而 对 于 高 清 序列 它 仍然 很 高 。 因 而 ， 高 清 视频 一 般 而 言 会 给 出 较 高 
的 空间 相关 性 。 通 过 使 用 较 高 阶 的 ICT， 高 清 视 频 的 这 种 特性 可 被 利用 来 实现 更 好 
的 编码 效率 [ H28], 
表 G.1 不 同 视频 分 辨 率 下 相 邻 像素 的 相关 度 [21] 
r (1) r (2) 























测试 序列 ay Ht 
My On Mp C 2 

Kimono 1920 x 1080 (高 清 ) 0. 8673 0. 1284 0.7311 0. 1434 
Parkscene 0. 7431 0. 1820 0. 6695 0. 1967 
Cactus 0. 8542 0. 1692 0. 7483 0. 1245 
Vidyol 1280 x720 (高 清 ) 0. 7539 0. 2401 0. 4073 0. 1842 
Vidyo2 0. 6643 0. 1982 0. 3060 0. 1569 
Vidyo3 0. 5474 0. 1125 0. 3221 0. 2923 
Partyscene 832 x480 (WVGA) 0. 4953 0. 1598 0. 2019 0. 1757 
BQmall 0. 4517 0. 2145 0. 1966 0. 2450 
Basketballdrill 0. 5594 0. 1183 0. 2301 0. 1032 
BQsquare 416 x240 (WQVGA) 0. 3543 0. 2935 0. 0964 0. 1722 
Blowingbubbles 0. 2879 0. 1515 0. 0473 0. 1906 
Basketballpass 0.2177 0. 1784 0. 0355 0. 2098 


对 于 r (1) Mr (2)， 左 列 描述 了 预测 残 差 相关 系数 的 均值 ， 右 列 描述 了 预测 残 差 
相关 系数 的 标准 差 。[ 116] 的 表 1 描述 了 像素 的 相关 系数 。 

在 随后 的 部 分 中 会 讨论 从 DCT-I 到 ICT 的 一 般 导 出 过 程 和 将 在 H. 264/AVC 
[H29] 和 AVS-vidwo [A59] 中 专门 面 癌 高 清 视频 编码 实现 的 三 个 特定 的 2 维 16 
阶 ICT. 

DCT-II [B2] 把 N 长 的 矢量 和 映射 到 男 一 个 同样 长 度 的 变换 系数 矢量 对 中 
(G.2). 





X=[|H]x (6:2) 
这 里 的 矩阵 [H] MERRIE, EXN 





Aba =e, Ne [n+ 二 用] (G.3) 


Apai 
20 


1,440 
AEM: [H] 和 [H] 的 元 素 是 无 理 数 。 这 样 ， 如 果 正 变换 和 逆 变 换 级 联 在 一 起 实现 
的 话 ， 计 算 机 将 不 能 用 有 限 比 特 的 精度 重建 得 到 同样 的 数据 。 而 且 ， 如 果 正 变换 和 
反 变 换 在 不 同 浮 点 表示 的 不 同 机 器 上 执行 的 话 ， 误 差 将 会 很 大 。 先 缩放 [H] 和 
[H] 然后 取 整 到 最 近 的 整数 就 能 避免 以 上 误差 。 但 如 果 缩 放 因 数 很 大 ， 那 么 行 
(ERE) 的 范 数 就 会 很 高 ， 计 算 复杂 度 也 会 提高 。 因 而 ,， 具 有 小 整数 元 素 的 正 交 
和 矩阵 [H] 就 会 非常 可 取 。 

















[H][H]"=[7] (G. 4) 
其 中 [7] 是 一 个 单位 矩阵 。 
根据 二 值 对 称 原理 ， 这 就 促成 了 ICT 的 提出 [16], ICT 保持 了 相对 幅 值 这 样 
的 结构 ， 符 号 ， 二 值 对 称 性 ， 以 及 变换 系数 元 素 中 的 正 交 性 。 


G.3 简单 的 2 维 16 阶 ICT 


16 K ICT M DCT-I [17] 和 矩阵 中 发 展 出 来 : 
1 
a? i=l 
.1 
Pew C i. i zi 1<j<16 
16 

FEM: [D],。 可 以 用 二 值 对 称 原 理 改 进 为 【7],。， 如 图 G. 2 所 示 。 那 些 点 表示 
和 矩阵 沿 着 里 面 绘 制 的 实 线 按照 奇偶 交错 的 对 称 规律 扩展 到 右 侧 。 

15 个 元 素 (xo, xi, 1) 被 选 为 保持 [7],。 正 交 性 的 整数 。 这 种 选择 可 被 认 
为 是 实现 复杂 度 、 变 换 编 码 增 益 和 避免 效率 之 间 的 一 种 平衡 [120], FA Cham and 
Fong [120] 提出 的 [T] ÆT AVS- video BY H. 264/AVC 的 8 阶 ICT 的 一 个 扩展 
版 本 ， 它 取决 于 要 被 集成 进去 的 标准 。 因 此 在 AVS-video 和 H. 264/AVC 中 的 实现 
就 会 生成 两 个 不 同 的 [7]1。。8 阶 ICT 的 流 图 如 图 G.3 和 G.4 [119] 所 示 。 它 们 可 
用 基本 的 加 法 和 移 位 运算 实现 (图 G.5) 。 

这 里 ， 元 素 vo, X ，…，%j; 表 示 预 测 残 差 或 像素 强度 值 ，X， X, e, ARR 
变换 系数 。 方程 G.6 到 G. 17 给 出 图 G.3 和 G.4 的 稀 玖 矩阵 因数 。 

[As(H.264)| =[4,] L4; ] [A4] LA; ] (G. 6) 


D(i,j) = (G. 5) 
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Xo Xo Xo Xo Xo Xo Xo Xo Xo Xo 
X1 X3 Xs X7 Xo X11 X13 X15 | 一 X15 X13 
X2 Xe X10 X14 一 X14 Xio Xes —X2| 一 %2 —X6 
X3 Xg XI5 一 X11 TX5 TX TX7 一 X13| X13 X7 
MX4 X12 X12 X4 X4 一 X12 X12 X4 Xa X12 
Xs X15 一 X7 TX3 X13 Xg X1 X11 | 一 X11 THY 
Xe 一 X14 X2 —Xio Xio X2 X14 — X6 | — X6 X14 
T. = X7 —Xig X3 X15 Xi X13 一 X5 —Xg| Xo Xs 
16 Xg —Xg —Xg Xe Xe -Xs —Xg Xg Xg —Xg 
Xg 一 X5 TX3 MWL 一 XI5 TX3 Xj X7 | 一 X7 一 X%11 
Xio 一 X%2 X14 Xe Xe 一 %14 X2 一 %10 | 一 %10 X2 
X11 TX Xo X13 TX3 X7 X15 Xs X5 X15 
X12 一 X4 X4 一 X12 一 X12 X4 “Xa4 X12 X12 X4 
X13 一 X%7 X1 Xs X11 X15 一 X9 X3 一 %3 Xg 
X14 一 XI0 Xe X2 X2 Xe Xio 一 X14 | X14 X10 
X15 一 X13 XI1 X9 X7 一 X5 X3 一 X1 xy 一 X3 


图 G.2 M DCT-I FEM [D] EREE [T] (1991 IEEE) 
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图 G.3 AVS-video 中 8 点 ICT 正 变 换 的 流程 图 [119] (2009 IEEE) 


Xo 


a lo 
像素 强度 值 


X 
HI Sd BIE > Aj Oo 


Xo 





X4 








Xs => 变换 系数 














X; X2 
Ao 

X4 ARN OD Xs 

Xy 

Xı 

X3 


图 G.4 H.264/AVC #8 点 ICT 正 变换 的 流程 图 [19] (2009 IEEE) 








Co Yo 
C} Yı 
a Y; 
8 阶 ICT 
C Y 
HRE D> c; E OARA 
C 证 
Cs Yis 
Co Yu4 
Cio Yis 
<! 8 阶 ICT - 
C1 Yio 
Ci4 Yo 
Cis Ys 
图 G.5 一 维 16 点 ICT 正 变换 的 流程 图 [120] (2010 IEEE) 
[LJ tL] 
4 | | (G.7) 
[4] -[7] 
1 0 0 1 -2 -3 0 2 
EAEN 0 1 1 0 3 一 2 2 0 (€.8) 
ree, Fh oo a a 3 
1 0 0 -1 2 0 -3 2 
2 2 0 1 -1 0 0 4 
0 -l1 1 0 0 -4 1 0 
A,] =di G.9 
[An}=diagh y a ofl r 4 0 5 
1 0 2 2 4 0 0 1 
[ A, ] = diag| 4| J, | al] Lhd] (G. 10) 
ER = LA, | [ A, ][ A, ] [A] (G. 11) 
a ibe 
[A ] | S t (G. 12) 
[4] -[7] 
1 0 0 一 2 0 3 
0 1 1 0 0 3 0 
d , G. 13 
[4] =d] o 1 1 ollo -5 20 Dak 
1 0 0 -1 3 0 0 2 
1 1 0 -2 -3 0 2 
ee 1 -l 3 一 2 2 0 (G. 14) 
EL slo 2 2 3 
0 0 -5 2 2 0 -3 2 
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3/7 
[A,] =diagl 8[7,],2[4], [4] ] (G. 15) 
1 0 … 0 0 
0 1 0 0 
Hle: a : (G. 16) 
0 0 1 0 
0 0 0 1 
(kxk) 
0 0 0 1 
. 0 0 1 0 
[7] = (G. 17) 
0 0 0 
1 0 0 0 
(kxk) 


[7 的 流程 图 包括 两 个 这 样 的 并 行 实现 的 8 点 ICT 正 向 变换 块 ， 如 图 G. 5 所 示 
[120]。 图 G.5 的 元 素 X, X,, eee ,Xs 表示 预测 残 差 或 像素 亮度 值 ，C,，C,，- 
C0,; 是 加 法 运算 的 中 间 结 果 ，Y,，Y ，…，Y; 是 生成 的 变换 系数 ，。 

注意 图 G.6 和 图 G.7 中 行 的 交替 奇偶 对 称 现象 。 图 G. 6 的 稀 鸣 矩阵 因数 是 ， 


’ 





[ Misu. za) J =[A, ] [A] (G. 18) 
其 中 
Li] Ld] 
[4 ] z (G. 19) 
[R] -Li] 
8 8 
8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 
12 12 10 10 6 6 3 3 -3 -3 -6 -6 -10 -10 -12 一 12 
8 8 4 4 -4 -4 -8 -8 -8 -8 -4 -4 8 8 
10 10 -3 -3 -12 -12 -6 -6 6 6 12 12 3 3 -10 一 10 
8 8 -8 -8 -8 -8 8 -8 -8 -8 -8 8 8 
6 6 -12 -12 3 3 10 10 -10 -10 -3 -3 12 12 -6 -6 
4 4 -8 -8 8 8 -4 -4 -4 -4 8 8 -8 -8 4 4 
To =13 3 -6 -6 10 10 -12 -12 12 12 -10 -10 6 6 -3 -3 
3 -3 -6 6 10 -10 -12 12 12 —12 -10 10 6 -6 -3 3 
4 -4 -8 8 8 -8 -4 4 -4 4 8 -8 -8 8 4 -4 
6 -6 -12 12 3 -3 10 -10 -10 10 -3 3 12 -12 -6 6 
8 -8 -8 8 一 8 8 8 一 8 8 -8 -8 8 一 8 8 8 一 8 
10 -10 -3 3 -12 12 -6 6 6 —6 12 -12 3 -3 -10 10 
8 -8 4 -4 -4 4 -8 8 -8 8 -4 4 4 -4 8 -8 
12 -12 10 -10 6 一 6 3 -3 -3 3 一 6 6 —10 10 -12 12 
8 一 8 8 一 8 8 一 8 8 一 8 8 一 8 8 


AlG.6 H.264/AVC (SICT) 的 16 阶 变换 矩阵 [120] (2010 IEEE) 


表 G.2 运算 次 数 [R0] 
简单 16 阶 ICT 移 位 次 数 加 法 次 数 总 运算 次 数 
224 88 





和 


[ A, | = diag] Mg 4, 264) M514, 264) ] (G. 20) 





8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 
10 9 9 6 6 2 2 -2 -2 -6 -6 -9 -9 -10 -10 
10 10 4 4 -4 -4 —10 -10 -10 -10 -4 -4 4 4 10 10 
9 9 -2 -2 -10 -10 -6 -6 6 6 10 10 22 2 -9 -9 
8 8 -8 -8 -8 -8 8 8 8 8 -8 -8 -8 -8 8 8 
6 6 -10 -10 2 2 9 9 -9 -9 -2 -2 10 10 -6 -6 
4 4 -10 -10 10 10 -4 -4 -4 -4 10 10 -10 -10 4 4 
Tye z=]2 2 -6 -6 9 9 -10 -10 10 10 -9 -9 6 6 -2 -2 
2 -2 -6 6 9 -9 -10 10 10 -10-9 9 6 -2 -2 2 
4 -4 -10 10 10 -10 -10 10 -10 10 10 -10 -10 10 4 -4 
6 -6 -10 10 2 -2 9 -9 -9 9 -2 2 10 -10 -6 6 
8 -8 -8 8 -8 8 8 -8 8 -8 -8 8 -8 8 8 -8 
9 -9 -2 2 -10 10 -6 6 6 -6 10 -10 2 -2 -9 9 
10 -10 4 -4 -4 4 -10 10 -10 10 -4 4 4 -4 10 -10 
10 -10 9 -9 6 -6 2 -2 -2 2 -6 6 -9 9 -10 10 
8 -8 8 -8 8 -8 8 -8 8 -8 8 -8 8 -8 8 -8 


图 G.7 AVS-video (SICT) 的 16 MEHER [120] (2010 IEEE) 


[M iscavs | = £4.) [47] (G. 21) 
其 中 
[A] E m | (C22) 
| [R] -Li1] l 
All 
[ A, | = diag[ Mg: avs) ,Ma avs) ] (G. 23) 


可 分 离 特性 允许 二 维 的 16 x 16 ICT 能 用 一 维 16 Br ICT 来 实现 ( 见 图 G.1)。 
实现 所 需要 的 加 法 和 移 位 次 数 见 表 G. 2。 


G.4 改进 的 2 维 16 MP ICT 


一 般 变 换 [T] ATR (具有 奇 对 称 ) 矩阵 元 素 的 幅 值 相对 高 于 偶 部 (具有 
侦 对 称 )。 这 样 ，Dong 等 人 [119] 就 提出 了 一 种 改进 的 16 阶 ICT， 其 中 的 偶 部 保 
持 不 变 ， 而 奇 部 重新 设计 来 降低 16 阶 DCT-I 的 计算 复杂 度 。 

这 样 ， 就 可 以 产生 两 个 不 同 的 16 阶 ICT 分 别 用 于 AVS- video 和 H. 264/AVC 中 的 
实现 方案 。 图 G. 8 给 出 了 [T] AER [T] BR [7T]s 以 及 改进 的 奇 部 [M] o 

[4W] ,的 元 素 选 择 基 于 三 点 考虑 : 

。 苑 素 幅 值 应 该 与 偶 部 可 以 相 比 [T]; 

。 产生 的 阶 次 改进 的 ICT (MICT) 的 第 二 基 矢 量 应 该 类 似 于 [T]; 

© 可 以 开发 出 实现 它 的 快速 算法 。 

因为 【1M] ,的 元 素 不 受 正 交 性 约束 选择 出 来 ， 他 们 可 以 具有 比 LM), oR 
小 的 幅 值 而 不 影响 [7]1e 固 有 的 正 交 性 。 

产生 的 MICT 和 矩阵 ( [M],,) 的 前 三 个 基 矢 量 类 似 于 [7],。。 因 此 ， 低 频 系 数 
保持 不 变 ， 对 于 高 清 视频 实现 了 很 好 的 能 量 集中 效果 。 

这 样 在 高 频 端的 系数 中 就 可 以 实现 计算 复杂 度 和 性 能 之 间 一 种 均衡 。 这 使 得 将 
(Bie Wis Me Mag: Sys. Bas Hine He) wey (11, 1; 11, 9, 8, 6 4. 1) [119 |, 
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[7]a。 = 


[M]so = 


a) [T] s ARE 


Xo Xo Xo Xo Xo Xo Xo 
X6 X10 X14 一 X14 Xio Xes Xz 
X12 Xiz? 一 X4 X4 一 X12 Xiz X4 
X14 一 X2 —Xio X10 X2 X14 — X6 
—Xg —Xg Xg Xg —Xg —Xg Xg 
=% x x 一 X%6 — X14 X2 — X10 
-x4 xa a 一 X12 X4 X4 X12 
一 X10 Xe —X2 x2 Xe Xio X14 
a) 
X3 Xs X7 Xg Xu X13 X15 
Xo X15 “Xi 一 X5 TX1 TX7 X13 
X15 ~“X7 一 X3 一 X13 Xo X1 X11 
一 X%18 ~X3 X15 X1 X13 “Xs XQ 
一 X5 X13 X1 Xis 一 X3 Xi  Y%7 
7X4 Xg X13 一 MX3a X7 X15 X5 
一 MX7 X Xs X11 X15 “Xo %3 
X13 X11 XQ X7 Xs X3 Xl 
b) 
X3 X5 X7 Xo X11 X13 X15 
X11 X13 X15 一 X1 7X3 Xs 一 X%7 
X7 一 XMT 一 X3 一 X13 一 X15 Xə X11 
X13 Xi] XQ x7 Xs 一 %3 —X1 
一 X15 “Xo X11 Xs 一 X7 一 X1 %3 
=X] 一 X7 Xs 一 XML Xə Xı5 一 X13 
一 X5 X3 一 XML 一 XI5 X13 “X11 XQ 
一 X9 Xis 一 X%13 %3 一 XT %7 一 %5 
c) 


b) [7 的 奇 部 
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c) 改进 的 奇 部 [119] (2009 IEEE) 


[Mj]i 可 以 用 基本 的 加 法 和 移 位 运算 来 实现 (图 G.9)。 偶 部 是 [7],,， 可 以 按照 
图 G. 3 和 图 G. 4 来 实现 。 


满足 : 


[MM] 可 被 分 成 三 个 矩阵 [M],、 [ 


[M] =[M], LM], LM]; 


M], FI [M]; AA 


FEM [Mj],、[MMj, 和 [MM]; 可 以 用 加 法 和 移 位 来 表示 ， 如 [116」 解释 那样 。 
注意 到 图 G. 10 和 图 G. 11 中 行 的 交 蔡 奇偶 对 称 性 。 黎 踊 和 矩阵 因数 是 : 


其 中 


四 


[M eiaa) ] = [ A, | [A] 


[ A, ] = diag [| Mpi 264) Mag: 
L Mie: avs) ] = [ A, | [A] 


[ A, | = diag] Mg, ays) , Mg, | 


(G. 24) 


(G. 25) 


(G. 26) 
(G. 27) 


(G. 28) 


(G. 29) 








像素 强度 值 
的 预测 残 差 














VL SOLON 梧 
DG A 






































6 g § 6 b @ 8 8;y8 8@ 8 8 8 8 8 8 
ou nun 9 8 6 4 1-1-4 -6 -8 -9 -ll -ll -1 
B B8 4 4 -4 -4 -B -B| -8 -8 -4 -4 4 4 
8 6 4 1 -u -i -1 -9] 9 1 1 1 -1 =4 -6 -8 
8 E -8 -8 -8 -8 8 8] 8 8 -8 -8 -8 -8 8 8 
u 9 11 
4 4 & -8 8 È 4 4ļ|-4-4 8 8 -8-8 4 ł 
Ta=| 1 4 -6 -B gl -i | 11 -il -9 8 é -4i -l 
3 -3 -6 6 WO -10 -12 12 |123 -12 -10 10 6 -6 -3 3 
4 -1 -8 6 11 -9 -i HUJ- I 9 -il -6 8 1 -4 
6 -6 -12 12 3 -3 0 -3 3 12 -12 -6 6 
11 -1 -9 11 -6 8 1 4 4-4 -1 -3 6 -ll 9 1 -il 
10 -10 -3 3 -iZ 12 -6 6 | 6 -6 12 -12 3 -3 -l0 10 
9 -il 11 -11 -1 -4 -6 -| 8 6 4 J 1 -ll WW -9 
12 -12 10 -10 6 -6 3 -3 | -3 3 -6 6 -10 10 -R 12 
6 =8 1 = 1 -ll 9 -Mf -9 1 - 4 - 8 =6 


2 0 1 -1 -1 3 -1 0 
:| 0 2 l 
-1 -3 1 0 1 0 2 -1 
=[M,][M,](M,! = | ， = ; N K 
1 1 1 0 -2 0 1 =) 
0 -2 0 1 -1 -1 -3 -I1 


附录 G 面向 高 清 视 频 编码 的 更 高 阶 二 维 整 数 余 器 变 换 381] 





Ss = 


l 
0 


— 


8 
8 
l 


一 
ae oe Oo oe 


Tis = 


4 
l 
2 
d 
6 


i 1 
= pt 


-6 
1 -ll 
9 -9 
9 -ll 
0 -10 
6 -8 


= 


0 0 0 
0 0 1 
0 -1 0 
0 -1 1 
0 -1 -1 
-1 0 0 
-1 0 0 
-1 0 0 
0 -2 0 
0 -1 0 
0 -2 1 
-2 0 -1 
-1 0 
-2 0 
-1 1 0 
-1 -1 -2 
88 8 8 8 8 
19 8 6 4 1 
44 -4 -4 -0 -10 
4 lo -ll -ll -ll -9 
-8 -8 -8-8 8 8 
-ll -11 -4-1 9 8 
-10 -10 10 10 -4 -4 
-6 -8 9 1 -ll -ll 
-6 6 9 -9 -10 10 
86 NU -9 -ll ll 
-10 10 2 -2 9 -9 
-9 il -68 1 4 
-2 2 -0 W -6 6 
Mo -ll -1 -4 -6 -8 
9-9 6 -6 2 -2 
Lo -4 Wo -i 9 -Lu 


-9 i -ll 


-1 
0 
0 
0 
0 
-1 
0 
1 
2 
-1 
0 
0 
-1 
-1 
8 8 
-9 -ll 
4 1 
-1 -4 
-8 -8 
Hil 
-10 -10 
8 6 
6 -6 
-6 8 
10 -10 
-ll 9 
2 -2 
1 -ll 
-9 9 
4 -l 


-1 
-2 


图 G.11 面向 AVS-video (MICT) 的 16 阶 变 换 矩 阵 [116] (2007 IEEE) 


图 G.9 中 ，y,，y, 等 是 预测 残 差 或 像素 强度 值 ，Y,,， YY 等 是 变换 系数 。 实 现 方 
案 所 需 的 加 法 和 移 位 次 数 见 表 G. 3。 





表 G.3 运算 次 数 [Il9] 2009 IEEE 
改进 的 16 阶 ICT 移 位 次 数 加 法 次 数 总 的 运算 次 数 
32 150 182 


G.5 基于 Loeffler 因 式 分 解 的 二 维 16 阶 binDCT 


DCT- I 可 被 分 解 为 平面 旋转 和 蝶 形 运算 (图 G. 12a) [12, 18 和 19]。 就 实现 
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算法 所 需 的 运算 次 数 而 言 ，Loeffler 等 人 [15] (图 G.12) 提出 的 16 阶 DCT-I 的 
因 式 分 解 比 Chen 等 人 [12] 提出 的 更 为 有 效 。 这 种 表示 需要 31 次 移 位 和 81 次 加 
法 [115]。 为 了 减少 移 位 次 数 ， 平 面 旋转 可 以 表示 为 三 次 剪 切 (原文 : shear 译 
者 注 ) ,或 提升 步骤 (110, 01] (图 G. 12) 。 这 样 ， 理 论 上 需要 4 次 乘法 和 2 次 加 
法 的 旋转 运算 就 可 用 3 次 乘法 和 3 次 加 法 来 实现 。 




















Xı (+) (+) Yı Yı (+) © Xı 
sina sina sina sina 
X3 (+) Y2 Y2 (+) X> 
a) b) 


图 G.12 a) 三 个 提升 步骤 表示 的 平面 旋转 b) 逆 变 换 [110, 111] 


X,, AMY, Y, (WKI G.12 a 和 b 所 示 ) 之 间 的 关系 由 方程 (G.30) ~ 
(G.35) 导出 。 在 许多 情况 下 ， 平 面 旋 转 可 进一步 减少 为 2 次 乘法 和 2 次 加 法 。 在 
图 G. 14 中 ，p，u，K 和 开 表 示 乘 法 。 如 果 在 流程 图 中 上 一 阶段 存在 平面 旋转 ， 那 
么 后 和 天 可 被 移入 到 缩放 和 矩阵 。 剪 切 仍然 包括 一 些 参 数 ， 这 些 参数 通 稼 是 无 理 数 ， 
但 可 以 通过 二 值 有 理 系 数 近 似 ， 如 Liang 和 Tran 提出 的 那样 [1012]. 














































































[证 
L = ae 
aa a XxX[12] 
ee o= ‘ei X[4] 
预测 残 差 或 \ ance 变换 系数 
像素 强度 人 eons XY Í mxn AAA 
3 -@ 16-4 Xe ita X[10] 
—O = O as © | j X[2] 
9 O © : Sai X[13] 
[wea] ___. 
: Per EE XDI 
94 —b i nw} X[15] 
e+ XI 
4 off \\e -4i XI7] 
WY ie 
Prot bos BE X[5] RIK 








SHE XI] 未 连接 


图 G. 13 Loeffler 等 提出 16 BY DCT-I WiK [15 | ie = cos ae S, = sin 和 (1989 IEEE) 





编码 效率 与 计算 复杂 度 之 间 的 平衡 通过 调 市 近似 表达 式 来 实现 。 
Y, =X, +2aX, +a bX, +abX, (G. 30) 
Y, =X, +b(aX, +X,) (G. 31) 





) 
T 


图 G. 14 


d) Alc 的 缩放 提升 结构 


其 中 
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Py 
X] Y 
Vio 
Ta 
xX Y 
2 2 
Pa 
a) b) 
cosa 
X] Yı Xl 
sina ane sinacosa 
—sina 
X2 Y> X3 
cosa 
c) d) 
—sina 
X] Y2 
cosa 
cosa 
X2 f = Yj 
sina 
e) f) 


a) 一 般 的 旋转 b) 图 a 的 缩放 提升 结构 
[112, 18, 19] (2001 IEEE) 


1 — cosa l 
= — — ,b =sing 
sing 


X =Y, +20Y, +a bY, +abY, 


X, =Y, +b(aY, +Y,) 


1 — cosa . 
a= 一 一 一 一 ,= -sing 
sing 








c) 正 交 的 平面 旋转 


e) Alc 的 重 排版 本 f) Alc 的 缩放 提升 结构 


383 


(G. 32) 


(G. 33) 
(G. 34) 


(G. 35) 


Liang 与 Tran 提出 的 基于 Loeffler 等 人 [15] AY binDCT [ 112] 因 式 分 解 
(binDCT-L) 可 以 用 最 优 次 数 的 移 位 和 乘法 运算 来 实现 16 阶 DCT-I。 尽 管 binDCT 
不 完全 是 一 个 整数 余弦 变换 ， 但 它 只 用 定点 算术 运算 来 计算 。binDCT 的 流程 图 如 
图 G. 15 所 示 。 虚 线 框 表示 缩放 因数 。 

16 阶 binDCT 的 平移 和 加 法 次 数 由 表 G. 4 给 出 。 





表 G.4 运算 次 数 [12] (2001 IEEE) 
16 阶 binDCT-L 平移 次 数 加 法 次 数 运算 总 次 数 
51 106 157 


G.7 FG. 8 节 将 讨论 ， 以 上 H. 264/AVC 和 AVS- video 的 16 阶 ICT 的 实现 细 
节 ， 和 基于 变换 编码 增益 和 在 各 种 分 辨 率 视 频 序 列 中 观察 到 的 客观 质量 (BD- 


384 视频 编码 全 角度 详解 





pee oe, 





pais ti 








预测 残 差 或 
像素 强度 值 








a X[10] 






































ee re. 
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ARRAS 








I X[7] 
o SAXIS] 黑 实 点 表 
b = TEX 示 连 接 














图 G.15 16 阶 binDCT-L 的 流程 图 (2001 IEEE) 


PSNR 和 BD- 比特 率 [U5]) 的 比较 。 
G.6 变换 编码 增益 


变换 编码 增益 [Bl] Cr 是 一 种 变换 的 能 量 集中 效果 的 测度 。 





0 (G. 36) 








AT, o ,是 源 信号 元 素 的 协 方差。 分 子 表示 变换 系数 方差 的 算术 平均 。 分 母 表 示 
相应 的 几何 平均 。 为 了 比较 以 前 解释 过 的 三 种 ICT 的 变换 编码 增益 ， 我 们 把 1 维 零 
均值 单位 方差 的 一 阶 马尔 可 夫 过 程 (如 图 G. 16 所 示 ) 作为 信 源 。 信 源 邻 近 元 素 的 
相关 度 可 用 p 来 表示 。 我 们 可 以 从 表 G. 1 中 看 到 ， 高 清 视频 序列 的 p 从 0.5 到 0.9 
之 间 变 化 。 图 G.17 和 表 G. 5 给 出 了 对 于 所 有 三 种 ICT 关于 p 的 变换 编码 增益 (以 
分 贝 计 ) 变化 及 与 16 BY DCT-I 比较 的 情况 。 这 里 ， 简 单 16 阶 ICT (SICT) 1 和 
SICT 2 分 别 表示 H. 264/AVC 和 AVS-video 所 实现 的 ICT。 改 进 的 16 阶 ICT 
(MICT) 1 和 MICT 2 分 别 表 示 H. 264/AVC 和 AVS- video 实现 的 ICT。 从 图 中 我 们 
可 以 得 出 结论 , 与 16 阶 DCT-I 相 比 (9. 4554 dB 对 于 p =0.95) ，16 阶 binDCT-L 
对 于 较 高 的 p 值 (9. 4499 dB 对 于 p =0.95) 给 出 最 好 的 变换 编码 增益 。 对 于 p = 
0.95, ， 改 进 的 16 阶 ICT 1 和 MICT2 分 别 给 出 8.8925dB 和 8. 8201dB。 对 于 SICT 1 
和 SICT2 相应 的 值 是 8. 7693dB 和 8.7416dB (如 图 G. 17 所 示 ) o 

ICT 的 性 能 可 以 基于 BD- 比特 率 和 BD-PSNR [U5] 进行 评价 ， 这 两 项 指标 在 
(H. 264/AVC 和 AVS-video) 与 ICT 集成 的 时 候 可 以 求 出 。 这 些 值 按照 标准 实现 的 
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1 p p14 0” 
p 1 S p13 p14 
[7]=|: “pp i 
p14 p13 p 1 p 
p15 p14 p 1 
图 G. 16 


= Order 16DCT- I 一 一 SICT 1(H.264/AVC) ake MICT 1(H.264/AVC) 
=æ SICT 2(AVS-video) === MICT 2(AVS-video) 一 三 一 Order 16binDCT-L 


变换 编码 增益 /dB 











0.15 0.25 0.35 0.45 0.55 0.65 0.75 0.85 0.95 
相关 系数 
图 G.17 各 种 16 阶 ICT 和 16 阶 DCT-II 的 变换 编码 增益 的 比较 [121] 
默认 性 能 来 计算 。 这 里 ，BD- PSNR 给 出 相同 比特 率 下 的 绝对 PSNR 增益 ，BD- 比特 
率 给 出 相同 PSNR 下 比特 率 节 约 的 百分比 。 
表 G.5 变换 编码 增益 关于 p 的 变化 [121] 


Orderl6 SICT1 MICT1 SICT2 MICT1 16 阶 





P DCT-I (H. 264/AVC) (H.264/AVC) (AVS China) (AVS China) binDCT- L 
0. 15 0. 3523 0. 3380 0. 3392 0. 3279 0. 3386 0. 3520 
0. 25 0. 7715 0. 7618 0. 7654 0. 7609 0. 7632 0. 7713 
0. 35 1. 1803 1. 1629 1. 1670 1. 1611 1. 1637 1. 1795 
0.45 1. 3496 1. 2078 1.2184 1. 1955 1.2169 1. 3480 
0. 55 1. 4539 1. 2305 1. 2671 1. 2193 1. 2587 1. 4508 
0.65 1. 5383 1. 3863 1. 3887 1. 3842 1. 3906 1. 5362 
0.75 2. 0537 1.9107 1. 9652 1. 8993 1. 9348 2.0516 
0. 85 3.1185 2. 8030 2.9170 2.7951 2. 8879 3. 1024 
0.95 9. 4554 8. 7693 8. 8925 8. 7416 8. 8201 9. 4499 





G.7 HH. 264/AVC 中 的 实现 方案 与 性 能 分 析 


H. 264/ AVC 参考 软件 [H30] JM 18.0 中 实现 了 三 种 2-D 16 阶 ICT。 用 于 简单 
和 改进 的 2 维 16 阶 ICT 的 缩放 和 量化 矩阵 与 参考 软件 中 的 一 样 ， 由 于 它们 是 8 阶 
ICT 的 扩展 版 本 ; 而 2 维 16 阶 binDCT- L 的 相应 矩阵 则 在 附录 中 规定 。 变 换 大 小 的 
选择 基于 宏 块 级 的 R-D 代价 [G2]. H. 264 高 档次 用 于 编码 视频 序列 。 这 些 视频 序 
列 可 以 从 [V5] FR, K G. 6 规定 了 一 些 用 于 编码 的 配置 参数 。 编 码 的 执行 利用 
了 一 个 具有 Intel i7 四 核 的 2.6GHz 处 理 需 文 持 6CB 内 存 的 系统 。 所 用 的 操作 系统 
是 Windows 7。 属 于 高 清 (1920 x 1080, 1280 x 720), WVGA (832 x 480) 和 
WQVGA (416 x240) 的 视频 序列 用 于 评价 性 能 。 编 码 结果 [每 个 序列 的 比特 率 对 
PSNR, [ORR PAA OTC (BD-R) 对 BD-PSNR] 列 在 表格 之 中 。 还 给 出 了 
每 种 不 同 分 辨 率 序 列 的 曲线 图 (JILE G. 18 ~ 图 G. 20 和 表 G.7~ 表 G.9)。 


帧 组 大 小 
帧 组 结构 

帧 内 编码 帧 周期 

率 失 真 优化 
QP (量化 参数 ) 
参考 帧 
快速 运动 估计 

搜索 范围 

去 块 效应 滤波 器 





























表 G.6 配置 参数 [R1] 
8 
IBBBBBBP 
0. 5s 
On 
22, 27, 32, 37 
2 
On 
32 
On 
CABAC 


R G.7 BD- 比特 率 和 BD-PSNR (SICT 实现 的 H. 264/AVC) [121] 








序列 名 BD- 比特 率 (%) BD- PSNR/dB 
Vidyol -2.57 0. 19 
Vidyo2 -3.81 0. 22 
Vidyo3 -1.91 0. 12 

表 G.8 BD- 比 特 率 和 BD-PSNR (MICT 实现 的 H. 264/AVC) [121] 
序列 名 BD- 比特 率 (%) BD- PSNR/dB 
Vidyol -5.30 0. 31 
Vidyo2 -3.55 0. 26 
Vidyo3 ~2. 08 0. 20 
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图 G. 18 ”Vidyol 序列 Y- PSNR 关于 比特 率 的 变化 曲线 (使 用 SICT 的 H. 264/AVC) 
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一 一 使 用 改进 的 H264/AVC ”一面 = 默认 H264/AVC 


图 G. 19 Vidyol 序列 的 Y- PSNR 关于 比特 率 的 变化 曲线 (使 用 MICT 的 H. 264/AVC) [121] 
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R G.9 BD- 比特 率 和 BD-PSNR (binDCT-L 实现 的 H.264/AVC) [221] 





序列 名 BD- 比特 率 (% ) BD- PSNR/dB 
Vidyol -4.73 0. 36 
Vidyo2 -4.35 0.31 


Vidyo3 -1.59 0. 19 
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图 G. 20 


Vidyol 序列 的 Y- PSNR 关于 比特 率 的 变化 曲线 


(使 用 binDCT-L 的 H. 264/AVC) [121] 


G.8 AVS- Video 的 实现 方案 和 性 能 分 析 


AVS- video 的 参考 软件 [AS3] RM 52e 实现 了 三 种 2 维 16 阶 ICT。 简 单 和 改进 
的 2 维 16 阶 ICT 的 缩放 和 量化 矩阵 与 参考 软件 RM 52e 中 的 一 样 ， 由 于 它们 是 8 阶 


ICT 的 扩展 版 本 ; 而 2 维 16 K binDCT- L 的 相应 矩阵 则 在 附录 中 规定 。 


表 G.10 配置 参数 [R1] 




















帧 组 大 小 8 
帧 组 结构 IBBBBBBP 
帧 内 编码 帧 周期 0. 5s 
率 失 真 优化 On 
QP (量化 参数 ) 22, 27, 32, 37 
参考 帧 2 
快速 运动 估计 On 
搜索 范围 32 
去 块 效应 滤波 器 On 
Wi Si CABAC 











变换 大 小 的 选择 基于 宏 块 级 的 率 失 真 代价 [U5 ] 。AVS 加 强 档次 用 于 视频 序列 编 
码 。 表 G. 10 规定 了 一 些 用 于 编码 的 配置 参数 。 编 码 的 执行 利用 了 一 个 具有 Intel i7 四 
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核 的 2.6GHz 处 理 需 支持 6GB 内 存 的 系统 。 所 用 的 操作 系统 是 Windows 7。 属 于 高 清 
(1920 x 1080, 1280 x 720), WVGA (832 x480) 和 WQVGA (416 x240) 的 视频 序 
列 用 于 评价 性 能 。 编 码 结 果 [每 个 序列 的 比特 率 对 PSBNR， 比 特 率 市 约 百 分 比 
(BD- 比特 率 ) 对 BD-PSNR] 列 在 表格 之 中 。 还 给 出 了 来 自 每 种 不 同 分 辩 率 序列 的 
曲线 图 (DLAI G. 21 ~ Al G. 23 和 表 G.11 ~ 表 G.13) 。 
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图 G. 21 Vidyol 序列 的 Y-PSNR 关于 比特 率 的 变化 曲线 
(SICT 实现 的 AVS-video) [ 121] 
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图 G.22 Vidyo 1 序列 的 Y-PSNR 关于 比特 率 的 变化 曲线 
(MICT 实现 的 AVS-video) [ 121 ] 
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图 G.23 Vidyo 1 序列 的 Y PSNR 关于 比特 率 的 变化 曲线 
(binDCT- L 实现 的 AVS-video) [121] 


表 G.11 BD- 比 特 率 和 BD-PSNR (SICT 实现 的 AVS-video) [121] 





序列 名 称 BD- 比特 率 (% ) BD- PSNR/dB 
Vidyol -5.18 0. 29 
Vidyo2 -6.57 0. 34 
Vidyo3 -3.23 0. 21 


KR G.12 BD- 比 特 率 和 BD-PSNR (MICT 实现 的 AVS-video) [121] 





序列 名 称 BD- 比特 率 (% ) BD- PSNR/dB 
Vidyol -2.57 0. 34 
Vidyo2 -2.68 0. 26 
Vidyo3 -3. 12 0. 33 


表 G.13 BD- 比 特 率 和 BD-PSNR (binDCT-L 实现 的 AVS-video) [121] 





序列 名 称 BD- 比特 率 (%) BD- PSNR/dB 
Vidyol -7.45 0. 41 
Vidyo2 -5.28 0. 26 
Vidyo3 -2.14 0. 13 


G.9 ”结论 和 未 来 的 工作 


H. 264/ AVC 实现 的 SICT, MICT 和 binDCT- L HY BD-PSNR 和 BD- 比特 率 表明 ， 
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与 标准 中 目前 的 默认 ICT (2-D 8 x8 and 2-D 4x4 ICT) 相 比 ， 对 于 高 清 视频 
(1920 x1280，1280 x720) 可 以 实现 相当 大 的 比特 率 节 约 和 PSNR 增益 。 幅 值 的 
BD- 比特 率 或 正 值 的 BD- PSNR 表示 比较 好 的 编码 效率 。 而 且 ， 对 于 较 低 分 辨 率 视 
频 (WQVGA, WVGA) SICT, MICT 和 binDCT- L 的 编码 效率 类 似 于 默认 的 ICT。 
binDCT- L 在 三 个 被 实现 的 2 维 16 K ICT 中 给 出 最 好 的 编码 效率 。 这 是 由 于 binD- 
CT- 工 在 全 部 变换 中 是 2 维 16 阶 DCT- I 的 最 佳 近似 ， 而且 可 用 相对 少 的 平移 和 加 
法 就 能 实现 。 从 G.7 节 和 G. 8 节 的 图 中 我 们 可 以 推 新 出 ，AVS-video 实现 的 SICT, 
MICT 和 binDCT-L 的 BD-PSNR 和 BD- 比 特 率 遵循 类 似 于 H. 264/ AVC 的 曲线 规律 。 
唯一 的 差别 在 于 ， 对 于 相同 的 比特 率 AVS- video 给 出 相对 较 低 的 PSNR 增益 ; 此 外 对 
于 较 低 分 辩 率 的 视频 SICT, MICT 和 binDCT-L 的 性 能 尽管 与 默认 ICT (2 4E8 x8) 
可 相 比 拟 ， 但 仍 次 于 H. 264/AVC, binDCT 在 此 也 给 出 最 佳 性 能 。 

[121] 的 研究 工作 只 涉及 2 维 16 阶 ICT。 我们 可 以 开发 更 高 阶 (32 x 32, 
64 x64) 的 2 维 ICT 并 类 似 地 运用 于 各 标准 之 中 。 这 些 更 高 阶 的 ICT 对 于 超 高 分 辨 
率 视频 (4096 x2560) 能 给 出 较 好 的 编码 效率 ,但 是 它们 会 增加 计算 复杂 度 。 视 
频 编码 联合 协作 组 (JCT- VC, Joint Collaboration Team on Video Coding) 正在 考虑 
将 2 维 32 阶 ICT 和 2 AE 64 阶 ICT 集成 到 高 效 视频 编码 标准 (HEVC) [E5] 
(H. 264/ AVC 的 继承 标准 ) 中 。 正 在 考虑 中 的 测试 模型 TmuC 0. 9 是 HEVC 测试 模 
型 的 最 新 版 本 。 
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